当前位置: 首页 > 文章 > 一种基于信息增益的特征选择方法 山东农业大学学报(自然科学版) 2013,44 (2) 252-256
Position: Home > Articles > 一种基于信息增益的特征选择方法 Journal of Shandong Agricultural University(Natural Science Edition) 2013,44 (2) 252-256

一种基于信息增益的特征选择方法

作  者:
黄志艳
单  位:
泰山职业技术学院
关键词:
特征选择;文本分类;信息增益
摘  要:
本文提出了一种基于信息增益改进的信息增益特征选择选择方法.首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响.其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力.
单  位:
Taishan Vocational Institute of Technology,Tai'an 271000,China
关键词:
Feature selection%text classification%information gain
摘  要:
In this paper,based on information gain improved information gain feature selection in text.First class feature selection data set,reducing the imbalance of the data sets feature selection.Followed by the use of the characteristics of the calculated probability of occurrence information gain we reduce the low-frequency words feature selection interference.The final dispersion analysis feature information gain value in each category,to filter out h-frequency words the relatively redundant features,and select the characteristics of the application of information gain the difference further refinement,to obtain uniform and accurate feature subset.Control algorithm evaluation function value,indicating that the paper selected feature subset has better classification ability.

相似文章

计量
文章访问数: 6
HTML全文浏览量: 0
PDF下载量: 0

所属期刊

推荐期刊