XJIPC OpenIR  > 多语种信息技术研究室
维吾尔语网站识别方法
阿力木·木拉提;   艾孜尔古丽;  玉素甫·艾拜都拉
2016
发表期刊计算机工程与设计
卷号37期号:5页码:1417-1421
摘要通过调查与分析大量维吾尔文网页结构,对互联网中现有的维吾尔文网页进行网页识别研究。探讨维吾尔文不规范网页的字符编码转换方法,为此进行维吾尔文编码标准化处理。考虑维吾尔文网页独有的节点属性,提出一种基于维吾尔文网页文本节点特征的方法,但该方法显示略低的准确率及较多的误判率。结合维吾尔语常用候选词语料和向量空间模型(vector space module),提出一种基于维吾尔语常用词统计学特征的方法,利用测试网页内容和维吾尔语常用候选词语料,并将其以向量来表示,计算测试网页文本的词语在维吾尔语常用候选词中的相应权值,依据相应权值来计算测试网页为维吾尔文网页的概率,进行网页识别。对两种方法进行比较,准确率分别是69.85%和91%。实验结果表明,基于维吾尔语常用词统计学特征的方法比网页文本节点特征的方法具有更高的准确率,验证了该方法的有效性。
关键词维吾尔文 网页文本节点 向量空间模型 网页识别 常用词
DOI10.16208/j.issn1000-7024.2016.05.056
引用统计
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/4609
专题多语种信息技术研究室
作者单位新疆师范大学计算机科学技术学院;中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉. 维吾尔语网站识别方法[J]. 计算机工程与设计,2016,37(5):1417-1421.
APA 阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉.(2016).维吾尔语网站识别方法.计算机工程与设计,37(5),1417-1421.
MLA 阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉."维吾尔语网站识别方法".计算机工程与设计 37.5(2016):1417-1421.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
维吾尔语网站识别方法.pdf(256KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉]的文章
百度学术
百度学术中相似的文章
[阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉]的文章
必应学术
必应学术中相似的文章
[阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 维吾尔语网站识别方法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。