当前位置: 首页 > 新闻资讯 > 【重要进展】赵瑞雪研究员:大豆育种知识模型与构建研究
Position: Home > News > 【重要进展】赵瑞雪研究员:大豆育种知识模型与构建研究

【重要进展】赵瑞雪研究员:大豆育种知识模型与构建研究

引用本文:关陟昊,单治易,李甜,等.大豆育种知识模型与构建研究[J].农业图书情报学报,2024,36(11):79-91.

大豆育种知识模型与构建研究


关陟昊1,单治易2,3,李甜1,赵瑞雪1,4*

(1. 中国农业科学院农业信息研究所,北京 100081;2. 中国科学院文献情报中心,北京 100190;3. 中国科学院大学 经济与管理学院信息资源管理系,北京 100190;4. 国家新闻出版署 农业融合出版知识挖掘与知识服务重点实验室,北京 100081)


摘 要:

[目的/意义]针对语义歧义问题和亟待深度揭示的大豆育种知识,通过建立结构化的知识模型,深入探讨育种过程中涉及的关键概念及其相互作用关系的定义,对大豆育种知识进行规范的定义和组织,促进知识的统一化表达。

[方法/过程]通过分析大豆分子育种领域的知识结构特点,依据斯坦福本体构建七步法,利用本体构建工具Protégé 5.6.3,建立大豆育种领域的语义模型。大豆育种概念本体共构建了48个类,明确了性状、化合物、富集通路和生长分类下的概念、概念之间的层级关联,定义了表达、相互作用和正向调节等7类因果关系以及结合、位于和存在于3类状态关系。

[结果/结论]本研究整合了已有知识库和本体中大豆育种相关知识,建立了大豆育种领域生物分子水平上的知识模型,能够规范化描述生物分子在特定发育阶段或组织中的调控作用,减少知识表达的语义歧义现象,为大豆育种领域的专家和研究人员提供统一的知识框架,助力大豆育种研究的创新发展。


关键词:语义模型;本体构建;大豆育种;知识组织



0 引言

2025年中央一号文件提到:“持续增强粮食等重要农产品供给保障能力,主攻单产和品质提升,确保粮食稳产丰产”。当前,种业研究已经进入“育种4.0”的智能设计育种时代,即通过将人工智能技术与分子生物学技术、大数据技术、基因组技术相结合,实现作物性状调控基因的快速挖掘和表型的精准预测。在大豆育种过程中,首先要确定与目标性状相关的候选基因集合,然后探索候选基因与目标性状之间的调控网络以及相关的生物学过程,从而明晰植物体内关键基因的作用机制。上述过程中涉及细胞内多种组分之间的时空调控和代谢产物在不同细胞器或组织中的分布,一直是育种专家关注的重点和难点。随着基因组测序技术的不断发展,科学家们获得了大量的大豆科学的数据和信息。然而由于基因组学、转录组学、蛋白质组学数据库由不同的团队构建并存储于不同的数据库中,在数据结构、概念表达层面有所差异,难以进行代谢功能网络的多组学分析。例如尽管专业的大豆遗传信息数据库SoyBase和SoyKB提供了检索基因型和遗传信息的途径,但是其他“组学”数据集(例如蛋白质组学和代谢组学)很难找到,并且多源数据的融合分析也是一大难题,为大豆育种知识的整合和共享造成了阻碍。本研究通过建立统一的大豆育种知识模型,在分子生物学水平实现对大豆育种知识的规范化描述,加快大豆育种知识的整合和交流,助力大豆育种知识的批量化自动发现。


1 相关研究

语义模型是一种用来描述和表达数据、信息或知识的深层含义及其相互关系的概念结构,有助于实现信息资源整合、互操作性和语义互理解,将语义模型引入大豆育种研究可以有效解决以上问题。语义模型首先通过定义一系列概念(如类、属性、关系、实例等)来构造一个概念模型,这些概念反映了特定领域内的实体、实体特征以及实体间的关联关系。语义模型通常建立在本体论的基础之上,本体为语义模型提供了标准化、可复用的知识框架,是共享概念模型的形式化规范说明,用于明确领域内的基本概念、属性、关系以及约束规则,有利于消除术语歧义、确保概念表达的一致性。在农业领域,已有研究人员开展基于本体的知识表示模型构建研究。例如参考作物本体、基因本体和农学本体构建的农作物种质资源本体模型和根据国家农业中心科学数据集构建的棉花病害防治本体。这些研究为农业本体领域语义模型的构建奠定了理论基础。

在大豆育种知识体系的相关研究中,美国农业部开发了大豆植物生长本体论,以描述大豆的生长阶段、植物结构、发育阶段和性状,以规范大豆田间生长阶段的受控词汇,为大豆育种知识共享奠定了重要的基础。但是除概念层级之外的概念间语义关系并未在其中描述和规范。Crop Ontology是国际农业研究磋商组织提出的支持育种数据标准化的概念模型,其中包含大豆本体(Soybean Ontology),但只涵盖描述大豆性状的概念定义。Plant Ontology是描述植物解剖学、形态学和发育阶段的通用结构化词表,其中植物解剖实体、植物结构生长阶段和植物实验条件大类下可以检索到大豆相关的术语。Planteome在参考Plant Ontology层次结构的基础上,丰富了植物的种类,并与外部本体(Gene Ontology、Phenotype and Attribute Ontology和Chemical Entities of Biological Interest)相关联。

在描述大豆体内分子相互作用关系的研究中,已有学者定义了大豆病虫害领域的6类实体类型(虫子、病害虫害、特征、手段、部位和症状)和4类实体间关系(reside_in、symptom_for、characterized_by、solution_for)。在重要生物分子类型的定义方面,SoyKB整合了大豆功能基因组和分子育种知识,知识库中包含6类实体:基因/蛋白质、miRNA、代谢物、单核苷酸多态性、品系和性状,对多组学数据进行了关联,但也没有定义不同类型实体和同类型实体间的相互作用关系。大豆转录因子知识库和大豆基因和miRNA基因功能网络知识库建立了基于功能相似性的基因间相互关联。但功能相似性是根据基因序列的相似性计算得到,其本质上是一种相关性的描述,并非可以用于本体推理的因果关系或规则。类似地,大豆功能基因网络知识库SoyNet中基因的关联关系也是基于相似性计算得到。Plant Regulomics Portal知识库中包含了更多类型实体间(靶基因、miRNA、转录因子和蛋白质)的相互作用关系,未对关系类型进行定义,对关系的描述限于“有/无”,以二元关联关系两端的实体类型作为区分。在功能基因组知识图谱AgroLD中,实体间是单一的关联关系,并且也提到需要扩展分子间相互作用的知识。在包含大豆在内的木豆作物转录因子知识库PpTFDB中,包含预测的转录因子、蛋白质、简单序列重复(Simple Sequence Repeat,SSR)位点和引物4类实体,其中也未对实体间的关系类型进行定义。然而在植物体内生物分子的研究中,实体间关系类型的明确定义对于生物学知识的挖掘和假设生成尤为重要。例如激活、产生和相互作用关系的推理可以完成生物医学领域中药物副作用发现和“老药新用”等知识发现任务。在医学领域的植物-表型关系语料库中,包含4类语义关系,分别是“Increase”“Decrease”“Association”和“Negative”。在植物科学金标准语料库中,标注人员定义了植物科学领域分子生物学水平上的5类关系,分别是“activates”“inhibits”“interacts”“produces”和“is in”,以此为依据标注文献中存在的分子作用关系。然而,他们提出的本体侧重于分子育种领域中的不同的方向,例如生长阶段、植物组织结构、基因调控网络等,缺乏对重要育种概念之间关系全面而具体的描述。

目前尚缺乏对大豆育种知识体系的完整描述,因此有必要在整体层面分析大豆育种领域知识的内部特征,详细讨论其概念关系。本研究在现有本体、知识库和方法论的基础上,提出了一种大豆育种的语义模型。本研究的主要贡献有以下两点:①在分子生物学水平实现对大豆育种知识的规范化描述;②提出基于本体的大豆育种语义模型,促进大豆育种知识的整合、共享和基于文献的知识发现。


2 大豆育种知识特征分析


2.1 大豆遗传育种工作流程

大豆遗传育种是一项系统性工作,它结合了现代生物学理论、遗传学原理、分子生物学技术以及生物信息学分析手段。改良大豆性状和培育新品种的工作流程如下:①建立假设。面向特定的性状组合或育种目标,基于先验知识的深度整合和逻辑推理,提出基因与性状关联、遗传模式、分子标记或基因连锁关系等假设。②设计方案。通过设计适合的实验方案验证假设。③验证假设和迭代。实验结束后,根据实验结果调整、优化原假设或提出新的假设。科研人员不断迭代这一过程,逐步揭示大豆遗传规律,最终实现大豆品种改良与创新。

2.2 大豆遗传育种工作挑战

随着生物测序技术的发展,科研人员获得了繁复庞杂的基因组数据,这些数据使得对植物生长与发育的描述更加详细,调控机制的理解更加深入。但是,带来了如下挑战:①实体多样化。需求不只局限于基因实体和性状实体,还包括植株部位、生长阶段等时空特征上的描述。②广泛关联化。关注表达过程中的互作关系,包括基因、代谢物、通路以及植物激素对基因的调控作用的描述。③关系细分。实体间作用关系需要以更细化的形式表达,以精确描述生物学过程。如图1中所示,“reduce”“negative correlation with”“decrease”等术语的使用会带来歧义,对同一种关系的多样化描述会影响语义表达的一致性。

*注:句子前的序号代表句子在摘要中的顺序,蓝色方框中是该句话中包含的性状实体和关系,黄色突出显示代表性状实体,湖蓝色突出显示代表性状间的协变关系

图1 标题为POWR1 is a domestication gene pleiotropically regulating seed quality and yield in soybean的文献对同一种性状协变关系的多种表达方式

Fig.1 Multiple expressions of covariant relationships for the same trait in the literature titled “POWR1 is a domestication gene pleiotropically regulating seed quality and yield in soybean”


2.3 小   结

针对语义歧义问题和亟待深度揭示的育种知识,本研究旨在:①建立结构化的知识模型,对大豆育种知识进行规范的定义和组织,以便知识的关联,促进知识的广泛利用和共享;②以大豆为例,通过建立语义模型探讨植物分子生物学关键概念及其相互作用关系的定义。目前应用较为广泛的知识模型有性状本体分析、植物组项目、植物本体论和植物组学门户,但未对实体间复杂的关联关系作以细化的分类、说明和规范。

本研究拟解决大豆育种知识体系描述不全面、不规范的问题,通过建立语义模型,深入探讨其概念间的关系。基因调控过程中通过多个分子之间的相互作用,在特定时空条件下决定细胞状态,进而影响植物的性状。因此,对遗传调控网络的描述是大豆育种知识体系的核心,也是解析控制重要性状分子模块的基础。大豆生物系统中实体相互作用研究的目的是破译关键生物过程中的关键基因、通路和调控网络。涉及的实体主要分为4类。

(1)生长。在植株结构方面,大豆基因间的相互作用关系具有组织特异性,大豆的组织包括根、叶、茎、花、种子等。在植株发育阶段方面,基因的表达模式会随着大豆生长发育阶段的变化而变化,发育阶段包括种子发育阶段、子叶发育阶段、花粉发育阶段等。

(2)化合物。包括基因和基因表达的产物。

(3)富集通路。基因所富集的通路代表了其在细胞内或细胞外发挥的具体功能,有助于从系统的角度揭示基因控制性状的生物学机理。

(4)性状。包括大豆的形态性状、生化性状、育性或不育性状、品质性状、抗逆性性状等。


3 语义模型构建

语义模型是定义领域内概念和关系的本体。通过定义概念和语义关系可以对大豆育种领域知识进行规范化组织,全面地描述该领域的知识结构。统一医学语言系统(Unified Medical Language System,UMLS)是在医学领域被广泛使用的较为成熟的语义模型,它将叙词表、本体、分类表等不同来源的知识组织系统统一组织,通过构建概念层次结构来规范知识的统一化表达,其设计理念、组织体系在对其他领域的知识进行组织时具有借鉴意义。例如中国科学院在构建科技文献的知识组织体系(Scientific & Technological Knowledge Organization Systems,STKOS)的部分流程参考了UMLS。大豆育种领域与医学领域在基因表达和蛋白质相互作用等生物学过程中有相似之处,由于大豆育种领域目前没有完善的语义模型,参考医学领域语义模型UMLS的描述,本研究将大豆育种语义模型定义为:大豆育种领域研究的术语系统,规范化描述大豆领域的概念名词表达、概念间的层级关系、概念的语义类型和概念间的关系类型。在模型构建方面,分子植物学金标准语料库的开发过程中创建了两个用于注释的本体:一个是实体本体,包含化合物、生物体和解剖部位3个子层次结构;另一个是关系本体,包含描述实体物理位置的静态关系和描述基因调控过程的动态关系。参考分子植物学金标准语料库的构建思路,本研究提出的大豆育种语义模型同样包括两个本体:一个用于描述领域内的实体;另一个用于描述实体间的语义关系。


3.1 大豆育种概念本体构建

本体由结构化的等级体系类目和它们间的相互关系构成。大豆育种概念本体基于大豆分子育种流程,结合植物体内的分子调控作用机制,借助Protégé 5.6.3本体工具进行构建。本研究采用被广泛应用于本体构建的斯坦福七步法构建大豆育种概念本体。

(1)确定本体的专业领域及范畴。本研究构建的本体知识模型面向大豆育种领域,专门针对大豆生长发育过程中基因表达的时空特征,用于描述大豆育种过程中的分子生物学专业术语和常用概念,规范概念间的层级关系,以辅助挖掘文献中的大豆育种知识。

(2)梳理并确定本体中的重要术语。本研究详细梳理了现有农业领域的权威且开源的大豆本体,包括国际农业研究磋商组织建立的Crop Ontology中的大豆本体类、美国农业部建立的SoyBase中的生长发育本体、国际应用生物科学中心出版的CAB叙词表、联合国粮食及农业组织建立的多语言受控词表AGROVOC、BioProtal、美国农业部国家农业图书馆开发的NAL Agricultural Thesaurus、国际粮农组织和美国农业部国家农业图书馆共同提出的Global Agricultural Concept Space等。参考植物科学、农学、生命科学学科领域本体的术语大类和概念框架,结合大豆分子育种知识的特点及育种专家关注的分子生物学重要概念,对术语进行汇总、筛选、对齐、分类,进而确定本研究的术语来源。初步考察的来源本体、学科领域、本体名称、本体特点描述和与本研究相关的术语大类详见表1。

表1 确定的术语范围
Table1 Sources of thesaurus

其中AGROVOC描述农业通用领域的概念,例如大类:测量单位(Measure)、产品(Products)、场所(Location)、活动(Activities)等,难以描述细分方向——植物科学中大豆育种的相关概念,故将其排除。

(3)复用现有本体。大豆育种知识本体的构建,采用复用已有本体的半自动构建方法。复用的本体包括:Crop Ontology、Plant Ontology、SoyBase、CAB Thesaurus、Gene Ontology、Gene Regulation Ontology。参考以上本体中大豆分子生物相关部分的语义类型和语义关系。

(4)定义类和类的层级结构。由于大豆育种知识本体是在多个已有本体的基础上构建的,因此应当依据自下而上的原则定义类的层级结构。在复用中涉及大豆分子生物信息部分的类和类的层级结构的基础上,结合确定的领域概念及真实世界中育种专家关注的科学问题,对大豆育种知识本体中的类、分类框架和层级关系进行优化和调整。本研究构建的概念本体类结构如图2所示,其术语来源详见表2。

(5)定义类的属性。基于大豆育种知识本体构建数据来源,复用Crop Ontology、Plant Ontology、SoyBase、CAB Thesaurus、Gene Ontology、Gene Regulation Ontology中大豆分子生物相关部分的语义类型和语义关系,定义类的属性信息。此外,结合现实中育种专家的科研需求,增加、删减、合并语义关系,确保本研究构建的本体能够完整揭示大豆育种领域的分子生物学规则或知识推理信息。

(6)定义属性的取值范围。针对大豆育种知识本体中不同实体的特点,定义属性的取值范围和变量类型。

(7)导入实例。基于大豆育种知识本体的等级体系和数据特点,整合目前公开的植物科学相关数据库中的大豆育种知识,完成大豆育种知识本体的创建。

图2 大豆育种概念本体类结构
Fig. 2 Conceptual ontology of soybean breeding

表2 大豆育种概念本体中术语来源
Table 2 Sources of terms in the ontology of soybean breeding concepts



3.2 大豆育种关系本体构建

大豆育种关系本体描述大豆育种概念之间的语义关系。根据主语实体对宾语实体的作用结果,将关系类型分为因果关系和状态关系两个大类。如表3所示,因果关系主要描述基因的表达调控过程以及蛋白质与其他化合物在作物生长过程中发挥的功能,包括:表达、相互作用、正向调节、负向调节、相关、编码和参与;状态关系主要描述化合物的时间和位置属性,包括结合、位于和存在于。

表3 大豆育种关系本体
Table3 Ontology of soybean breeding relationships


3.3 构建结果

在语义关系方面,通过对基因、蛋白质、性状、非基因产物的化合物等实体之间的复杂关系进行深入挖掘,本研究构建了包括基因与蛋白质之间的表达关系、蛋白质与性状之间的功能关联、化合物对基因表达的调控作用,以及这些实体在细胞组分、组织结构中的位置信息在内的多维度语义关系网络(图3)。这些关系涵盖了静态的存在与结合关系,如基因产物在细胞组分中的定位、化合物在特定发育阶段或组织中的存在,以及动态的调控与影响关系,如蛋白质之间的相互作用。本研究提出的本体语义模型通过系统化地组织和表示大豆育种相关知识实体的复杂关系,有助于大豆育种过程中生物学机制的深入理解。

图3 本体语义模型
Fig.3 Semantic ontology model

在类和类的层级结构方面,通过对大豆育种知识本体构建所需的来源数据库的梳理,结合作物科学和生物信息学对育种知识表示的需要,梳理并明确了大豆育种领域的核心概念。大豆育种概念本体共构建了48个类,包括性状、化合物、富集通路和生长分类下的概念、概念之间的层级关联,展现了大豆育种相关的重要生物分子和生理结构的信息。其中,概念本体和关系本体的层级关系如图4、图5所示。

图4 “大豆育种知识”概念类层级图
Fig.4 Conceptual class hierarchy diagram of "soybean breeding knowledge"

图5 “大豆育种知识”关系类层级图
Fig.5 Hierarchical diagram of "soybean breeding knowledge" relationship classes


3.4 应用场景

本研究是信息学与植物科学交叉领域的探索性研究,从信息学的角度对大豆育种知识进行科学组织,知识模型构建的目的是对大豆分子遗传学领域中各类概念、关系及其层次结构进行形式化、标准化的描述,旨在促进该领域的知识共享和智能应用。本研究梳理了大豆分子遗传学的核心概念,明确了概念间的语义关系,根据概念的抽象程度和包含关系,构建了多层次的分类体系,可应用于大豆育种领域的知识发现、因果推理等场景,辅助实验设计以及推动跨学科交流。例如,以大豆基因组领域的经典文章Genome-Wide Association Studies Dissect the Genetic Networks Underlying Agronomical Traits in Soybean为例,依据本研究构建的大豆育种知识模型标注文章中提及大豆知识实体,得到的知识图谱如图6所示。以基因“Dt1”为例,查询关联的知识实体,查询结果如图7所示。由图7可知,Dt1作为多效基因,参与19个大豆关键性状的调节。

 图6 基于PubMed文献的知识图谱示例

Fig.6 An example of knowledge graph based on a PubMed literature

 图7 以“Dt1”为中心节点的知识单元
Fig.7 The knowledge unit with "Dt1" as the central node

在后续的研究中,大豆育种知识模型将更深入地与实际的育种科研流程融合,基于构建的知识模型进行辅助科研的应用型研究,同时也将运用更加智能化的信息技术不断优化大豆育种知识模型,为领域专家提供强有力的知识支撑。例如,将本研究构建的知识模型用于:①知识抽取。以本研究构建的语义模型为词典,运用自然语言处理技术进行基于文献数据的命名实体识别和关系抽取任务,识别并提取存在于自由文本中的关键实体和关系,形成结构化的领域知识,构建语义丰富的知识网络,便于进行高效的知识查询、推理和发现。②基因调控网络构建。利用知识模型中的术语表达,识别文献中转录激活因子、受体和目标基因之间的作用关系,形成基因调控网络,从而揭示基因之间的相互作用(如抑制作用、叠加作用)和复杂调控机制(如共表达、拮抗)。③基因表达的特异性分析。以本研究构建的知识模型中的基因、解剖空间、生长阶段、植株结构、细胞成分和性状大类为依据,分析文献中的相关实体及其相互作用关系,明晰大豆基因的时间特异性和空间特异性表达。从系统层面揭示大豆关键基因在不同器官和发育阶段的表达模式,有助于精准设计基因编辑和育种策略。④代谢途径分析。如果将两两代谢物之间的作用关系视为中间代谢途径,那么多个中间代谢途径以共同的代谢物连接起来就可以构成复杂的代谢网络。利用知识模型中的非基因产物大类,识别文献中的代谢关系,可以进行大豆的代谢途径分析。⑤产量相关基因挖掘。利用大豆育种知识模型,挖掘存在于文献中的与产量相关的基因实体,通过分析大豆基因调控网络,识别与产量相关的关键基因,为分子育种提供目标基因参考。⑥实验设计优化。为新的实验设计提供参考建议,例如基于给定的文献集合,通过分析遗传相关的实体和关系,确定实验所需的分子辅助标记物,提高实验效率和成功率。


4 小结与展望

大豆育种知识模型是大豆分子遗传网络的规范化表达。大豆的分子遗传知识在育种过程中起着重要的作用。随着基因组测序技术的不断进步,大豆组学数据呈现出高速增长的趋势。但是数据来源的广泛性和知识表示的多样性为知识的有效利用带来了挑战,为领域知识建立统一的描述框架成为相关领域研究人员关注的焦点。针对这一问题,本研究在调研分析大豆育种的流程和已有的知识体系后,基于语义模型和本体论的理论,提出大豆育种领域的知识模型。大豆育种知识模型是对大豆基因表达过程进行系统化、结构化描述的知识体系。分子育种是一项高度依赖知识共享和协作的科学活动,规范化的语义描述有助于明晰大豆育种领域中概念间的复杂关联,有利于科研人员快速交流和使用全球范围内最新的研究成果,促进分子育种领域的创新与合作。与现有的知识模型相比,本研究通过分析该领域知识结构的特点,提炼出假设生成过程中的关键实体类型和关系类型,以此为依据构建本体模型,能够更为全面且完整地描述大豆生长发育过程中的基因表达方式。例如考虑到基因表达的动态变化及在不同组织和发育阶段的时空差异,在大豆生长大类下建立结构、解剖学空间和发育阶段下位类,以描述基因在不同条件下的表达水平,揭示基因表达的时空规律。这对于发现与特定性状关联的关键基因、解析性状形成的分子调控网络具有重要意义,有助于精准设计和优化育种策略。本研究的局限性在于通过手工的方式构建本体,未采用自动化的自然语言处理方法。如前文所论述,本研究的目的是保证大豆育种知识概念和概念间关系表达的一致性,自动化生成本体词表方法虽然效率较高,但在规范性和可控性方面不如人工构建本体的方法。此外,在后续使用大豆育种知识模型的过程中,需紧跟大豆育种领域的发展前沿,及时根据领域科学家的知识描述需求扩充新的概念类型、增添新的概念名称和关系名称,定时维护和扩展大豆育种知识模型。

新一代人工智能技术将有助于大豆育种知识模型的优化。以大语言模型和深度学习为代表的新一代人工智能技术,为信息科学领域的研究提供了强大的工具和全新的视角。目前本研究基于语义模型和本体的思想完成了大豆育种知识模型的构建,对于后续的更新迭代,仍需借助更智能的信息技术。大豆育种知识模型的构建本质上是对知识的抽取与整合,大语言模型具有强大的自然语言理解和生成能力,可以自动从海量文献、报告、数据库等文本资源中识别大豆分子遗传的关键信息,如基因名称、功能、调控网络、突变类型、表型关联等,有助于丰富知识模型中的概念和实体。此外,利用大语言模型的持续学习能力,及时吸收最新的研究成果,更新大豆育种知识模型,维护其科学性和严谨性。本研究将在不断更新和优化当前知识模型的基础上,进一步探索大豆育种过程中基因与性状间的复杂关系,对其进行更详细、深层次的描述,并充分利用新一代人工智能技术提高知识模型的构建效率。

欢迎加入中国农业期刊集群

联系方式010-82109657

推荐期刊