Position: Home > Articles > 基于FASTmrEMMA、最小角回归和随机森林的全基因组选择新算法
Journal of Nanjing Agricultural University
2021
(2)
366-372
基于FASTmrEMMA、最小角回归和随机森林的全基因组选择新算法
作 者:
孙嘉利;吴清太;温阳俊;张瑾
单 位:
南京农业大学理学院
关键词:
FASTmrEMMA;最小角回归;随机森林;多基因效应校正;全基因组选择;
摘 要:
[目的]本研究将FASTmrEMMA、最小角回归(least angle regression, LARS)和随机森林(random forest, RF)方法应用于全基因组选择,以提高植物数量性状预测的准确性和效率,为植物遗传和育种提供有益信息。[方法]对拟南芥自然群体的模拟数据和真实数据进行全基因组预测。在模拟数据分析中,设置不同的表型缺失率,以平均绝对误差(mean absolute error,MAE)、均方误差(mean squared error,MSE)、预测模型拟合度和计算时间为指标,比较基于最小角回归和随机森林的两阶段算法(two-stage algorithm based on least angle regression and random forest, TSLRF)、基于随机森林的两阶段变量选择(two-stage stepwise variable selection based on random forest, TSRF)、随机森林和全基因组最佳线性无偏预测(genomic best linear unbiased prediction, GBLUP)4种方法的优劣。在拟南芥真实数据研究中,针对长日照花期(days to flowering under long day, LD)、春化长日照花期(days to flowering under long day with vernalization, LDV)和短日照花期(days to flowering under short day, SD)实施全基因组预测,并利用这些表型预测值与观测值进行全基因组关联分析,以比较上述4种全基因组选择方法的性能。[结果]模拟研究表明:在不同表型缺失率下,TSLRF的全基因组预测准确度和预测模型拟合度均较高;真实数据的TSLRF分析也获得相似的结论,且检测到40个已报道与目标性状显著关联的基因。[结论]TSLRF方法的全基因组预测准确度和模型拟合度较高,计算速度快,为分子育种和优异亲本组合的预测提供理论依据。