XJIPC OpenIR  > 多语种信息技术研究室
基于动态可配置规则的数据清洗方法
朱会娟;  蒋同海;  周喜;  程力;  赵凡;  马博
2017
发表期刊计算机应用
ISSN1001-9081
卷号37期号:4页码:1014-1020
摘要

针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。

关键词大数据 数据质量 数据清洗 动态可配置规则 数据预处理
DOI10.11772/j.issn.1001-9081.2017.04.1014
收录类别CSCD
CSCD记录号CSCD:5960194
引用统计
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/4755
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所多语种信息技术研究室;中国科学院大学计算机与控制学院;新疆民族语音语言信息处理重点实验室
第一作者单位中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
朱会娟;蒋同海;周喜;程力;赵凡;马博. 基于动态可配置规则的数据清洗方法[J]. 计算机应用,2017,37(4):1014-1020.
APA 朱会娟;蒋同海;周喜;程力;赵凡;马博.(2017).基于动态可配置规则的数据清洗方法.计算机应用,37(4),1014-1020.
MLA 朱会娟;蒋同海;周喜;程力;赵凡;马博."基于动态可配置规则的数据清洗方法".计算机应用 37.4(2017):1014-1020.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于动态可配置规则的数据清洗方法.pdf(587KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[朱会娟;蒋同海;周喜;程力;赵凡;马博]的文章
百度学术
百度学术中相似的文章
[朱会娟;蒋同海;周喜;程力;赵凡;马博]的文章
必应学术
必应学术中相似的文章
[朱会娟;蒋同海;周喜;程力;赵凡;马博]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于动态可配置规则的数据清洗方法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。