XJIPC OpenIR  > 多语种信息技术研究室
关键属性组的相似重复记录检测方法研究
宋国兴; 周喜; 马博; 赵凡
2017
发表期刊科学技术与工程
卷号17期号:19页码:65-71
摘要对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。
关键词统一互信息 关键属性组 降低维度 相似重复记录 噪声属性
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/5015
专题多语种信息技术研究室
作者单位1.中国科学院新疆理化技术研究所
2.中国科学院大学
3.新疆民族语音语言信息处理实验室
推荐引用方式
GB/T 7714
宋国兴,周喜,马博,等. 关键属性组的相似重复记录检测方法研究[J]. 科学技术与工程,2017,17(19):65-71.
APA 宋国兴,周喜,马博,&赵凡.(2017).关键属性组的相似重复记录检测方法研究.科学技术与工程,17(19),65-71.
MLA 宋国兴,et al."关键属性组的相似重复记录检测方法研究".科学技术与工程 17.19(2017):65-71.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
关键属性组的相似重复记录检测方法研究.p(357KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[宋国兴]的文章
[周喜]的文章
[马博]的文章
百度学术
百度学术中相似的文章
[宋国兴]的文章
[周喜]的文章
[马博]的文章
必应学术
必应学术中相似的文章
[宋国兴]的文章
[周喜]的文章
[马博]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 关键属性组的相似重复记录检测方法研究.pdf
格式: Adobe PDF
此文件暂不支持浏览
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。