XJIPC OpenIR  > 多语种信息技术研究室
关键属性组的相似重复记录检测方法研究
宋国兴; 周喜; 马博; 赵凡
2017
Source Publication科学技术与工程
Volume17Issue:19Pages:65-71
Abstract对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。
Keyword统一互信息 关键属性组 降低维度 相似重复记录 噪声属性
Document Type期刊论文
Identifierhttp://ir.xjipc.cas.cn/handle/365002/5015
Collection多语种信息技术研究室
Affiliation1.中国科学院新疆理化技术研究所
2.中国科学院大学
3.新疆民族语音语言信息处理实验室
Recommended Citation
GB/T 7714
宋国兴,周喜,马博,等. 关键属性组的相似重复记录检测方法研究[J]. 科学技术与工程,2017,17(19):65-71.
APA 宋国兴,周喜,马博,&赵凡.(2017).关键属性组的相似重复记录检测方法研究.科学技术与工程,17(19),65-71.
MLA 宋国兴,et al."关键属性组的相似重复记录检测方法研究".科学技术与工程 17.19(2017):65-71.
Files in This Item:
File Name/Size DocType Version Access License
关键属性组的相似重复记录检测方法研究.p(357KB)期刊论文作者接受稿开放获取CC BY-NC-SAView Application Full Text
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[宋国兴]'s Articles
[周喜]'s Articles
[马博]'s Articles
Baidu academic
Similar articles in Baidu academic
[宋国兴]'s Articles
[周喜]'s Articles
[马博]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[宋国兴]'s Articles
[周喜]'s Articles
[马博]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 关键属性组的相似重复记录检测方法研究.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.