当前位置: 首页 > 文章 > 基于词向量与多特征融合的农业文本自动标引研究 新疆农业大学学报 2022,45 (6) 486-492
Position: Home > Articles > Research on Agricultural Text Automatic Indexing Based on the Fusion of Word Vectors and Multi-features Journal of Xinjiang Agricultural University 2022,45 (6) 486-492

基于词向量与多特征融合的农业文本自动标引研究

作  者:
香慧敏;白涛;李东亚;马楠
单  位:
关键词:
词向量;多特征融合;TF-IDIWF;自动标引;农业文本
摘  要:
针对TF-IDF算法未考虑到文本关键词分布以及受不均衡数据集影响的问题,提出了一种多特征融合的术语频率-逆文档逆词频率(TF-IDIWF)自动标引算法,并与TF-IDF、TF-IWF、TextRank、LSI及LDA基线算法进行对比验证.利用python爬虫技术获取20万条农业文本语料以csv文件格式存储,用于训练农业词向量模型,随机抽取政策法规类、新闻资讯类、市场类、科技类文章各1000篇并进行多人独立标注,标注词个数为5~13个,将标注结果整合归纳后生成AGRI2020农业文本均衡数据集.为验证TF-IDIWF算法能否降低不均衡数据集带来的影响,从AGRI2020中随机抽取新闻资讯类1000篇,其余3个类别各100篇构建出农业文本不均衡数据集.首先利用TF-IDF融合词向量技术对分词后的词语进行过滤、筛选以及近义词归并,再引入词位置、词性及词跨度特征权重融合逆文档频率及逆词频率对农业文本进行关键词自动标引.结果表明,在不均衡数据集上的F1值为57.08%,相较于TF-IDF、TF-IWF算法分别提高了9.12%、1.24%;在均衡数据集上的平均F1值为60.80%,相较于TF-IDF、TextRank、LSI及LDA算法分别提高了10.48%、10.04%、18.83%、14.89%.多特征融合的TF-IDIWF自动标引算法能有效提高农业文本标引准确性.
译  名:
Research on Agricultural Text Automatic Indexing Based on the Fusion of Word Vectors and Multi-features

相似文章

计量
文章访问数: 25
HTML全文浏览量: 0
PDF下载量: 0

所属期刊

推荐期刊