当前位置: 首页 > 文章 > 基于工作流的统计年鉴数据清洗模型构建 河南农业科学 2021 (10) 172-180
Position: Home > Articles > 基于工作流的统计年鉴数据清洗模型构建 Journal of Henan Agricultural Sciences 2021 (10) 172-180

基于工作流的统计年鉴数据清洗模型构建

作  者:
张辉;魏东;乔璐;李丹丹;张玉尧;郑国清;冯晓
单  位:
河南省农业科学院农业经济与信息研究所
关键词:
工作流;统计年鉴;数据清洗;Alteryx;质量控制;
摘  要:
为实现统计年鉴数据集成整合和综合快速查询,以2000—2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型。结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集。构建的数据清洗建模方法具有高效、可溯源的优势。

相似文章

计量
文章访问数: 10
HTML全文浏览量: 0
PDF下载量: 0

所属期刊

推荐期刊