XJIPC OpenIR  > 多语种信息技术研究室
基于多策略的维吾尔文网页识别方法
阿力木·木拉提; 艾孜尔古丽; 杨雅婷; 李晓
2017
发表期刊中文信息学报
ISSN1003-0077
卷号31期号:1页码:133-139
摘要

经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。

关键词维吾尔文 网页识别 N-gram方法 常用词 向量空间模型
收录类别CSCD
CSCD记录号CSCD:5949611
引用统计
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/4741
专题多语种信息技术研究室
作者单位1.中国科学院新疆理化技术研究所
2.新疆民族语音语言信息处理重点实验室
3.中国科学院大学
4.新疆师范大学计算机科学技术学院
推荐引用方式
GB/T 7714
阿力木·木拉提,艾孜尔古丽,杨雅婷,等. 基于多策略的维吾尔文网页识别方法[J]. 中文信息学报,2017,31(1):133-139.
APA 阿力木·木拉提,艾孜尔古丽,杨雅婷,&李晓.(2017).基于多策略的维吾尔文网页识别方法.中文信息学报,31(1),133-139.
MLA 阿力木·木拉提,et al."基于多策略的维吾尔文网页识别方法".中文信息学报 31.1(2017):133-139.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于多策略的维吾尔文网页识别方法.pdf(380KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[阿力木·木拉提]的文章
[艾孜尔古丽]的文章
[杨雅婷]的文章
百度学术
百度学术中相似的文章
[阿力木·木拉提]的文章
[艾孜尔古丽]的文章
[杨雅婷]的文章
必应学术
必应学术中相似的文章
[阿力木·木拉提]的文章
[艾孜尔古丽]的文章
[杨雅婷]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于多策略的维吾尔文网页识别方法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。