XJIPC OpenIR  > 多语种信息技术研究室
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类
阿力甫·阿不都克里木1; 李晓1
2016
发表期刊计算机科学
ISSN1002-137X
卷号43期号:12页码:36-40
摘要

针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。

关键词维吾尔语 文本分类 关键词提取 Textrank算法 互信息相似度
DOI10.11896/j.issn.1002-137X.2016.12.006
收录类别CSCD
CSCD记录号CSCD:5872190
引用统计
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/4990
专题多语种信息技术研究室
作者单位1.中国科学院新疆理化技术研究所
2.中国科学院大学
3.新疆多语种信息技术重点实验室
第一作者单位中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
阿力甫·阿不都克里木,李晓. 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J]. 计算机科学,2016,43(12):36-40.
APA 阿力甫·阿不都克里木,&李晓.(2016).基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.计算机科学,43(12),36-40.
MLA 阿力甫·阿不都克里木,et al."基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类".计算机科学 43.12(2016):36-40.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于TextRank算法和互信息相似度的(427KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[阿力甫·阿不都克里木]的文章
[李晓]的文章
百度学术
百度学术中相似的文章
[阿力甫·阿不都克里木]的文章
[李晓]的文章
必应学术
必应学术中相似的文章
[阿力甫·阿不都克里木]的文章
[李晓]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。