当前位置: 首页 > 文章 > 农业新闻数据源增量爬虫的应用探析 现代农业科技 2021 (2) 259-260,264
Position: Home > Articles > Analysis on Application of Incremental Crawler of Agricultural News Data Source Modern Agricultural Science and Technology 2021 (2) 259-260,264

农业新闻数据源增量爬虫的应用探析

作  者:
杨广召;曹叶;朱航飞;王家硕;朱家玮
单  位:
塔里木大学信息工程学院
关键词:
农业新闻;增量爬虫;去重
摘  要:
随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段.增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容.本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题.试验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆的同时能有效提高增量爬取农业信息的效率,在增量信息爬取过程中具有很好的应用价值.
译  名:
Analysis on Application of Incremental Crawler of Agricultural News Data Source

相似文章

计量
文章访问数: 6
HTML全文浏览量: 0
PDF下载量: 0

所属期刊

推荐期刊