XJIPC OpenIR  > 多语种信息技术研究室
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类
阿力甫·阿不都克里木1; 李晓1
2016
Source Publication计算机科学
ISSN1002-137X
Volume43Issue:12Pages:36-40
Abstract

针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。

Keyword维吾尔语 文本分类 关键词提取 Textrank算法 互信息相似度
DOI10.11896/j.issn.1002-137X.2016.12.006
Indexed ByCSCD
CSCD IDCSCD:5872190
Citation statistics
Document Type期刊论文
Identifierhttp://ir.xjipc.cas.cn/handle/365002/4990
Collection多语种信息技术研究室
Affiliation1.中国科学院新疆理化技术研究所
2.中国科学院大学
3.新疆多语种信息技术重点实验室
First Author Affilication中国科学院新疆理化技术研究所
Recommended Citation
GB/T 7714
阿力甫·阿不都克里木,李晓. 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J]. 计算机科学,2016,43(12):36-40.
APA 阿力甫·阿不都克里木,&李晓.(2016).基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.计算机科学,43(12),36-40.
MLA 阿力甫·阿不都克里木,et al."基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类".计算机科学 43.12(2016):36-40.
Files in This Item:
File Name/Size DocType Version Access License
基于TextRank算法和互信息相似度的(427KB)期刊论文作者接受稿开放获取CC BY-NC-SAView Application Full Text
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[阿力甫·阿不都克里木]'s Articles
[李晓]'s Articles
Baidu academic
Similar articles in Baidu academic
[阿力甫·阿不都克里木]'s Articles
[李晓]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[阿力甫·阿不都克里木]'s Articles
[李晓]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.