XJIPC OpenIR  > 多语种信息技术研究室
基于词向量的维吾尔语词项归一化方法简
罗延根; 李晓; 蒋同海; 杨雅婷; 周喜; 王磊
2018
发表期刊计算机工程
ISSN1000-3428
卷号44期号:2页码:220-225
摘要

使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。

关键词维吾尔语口语文本 非正规词 归一化 神经网络 重采样
DOI10.3969/j.issn.1000-3428.2018.02.038
收录类别CSCD
CSCD记录号CSCD:6161574
引用统计
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/5236
专题多语种信息技术研究室
作者单位1.中国科学院新疆理化技术研究所
2.中国科学院大学
3.中国科学院新疆民族语音语言信息处理重点实验室
推荐引用方式
GB/T 7714
罗延根,李晓,蒋同海,等. 基于词向量的维吾尔语词项归一化方法简[J]. 计算机工程,2018,44(2):220-225.
APA 罗延根,李晓,蒋同海,杨雅婷,周喜,&王磊.(2018).基于词向量的维吾尔语词项归一化方法简.计算机工程,44(2),220-225.
MLA 罗延根,et al."基于词向量的维吾尔语词项归一化方法简".计算机工程 44.2(2018):220-225.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于词向量的维吾尔语词项归一化方法.pd(931KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[罗延根]的文章
[李晓]的文章
[蒋同海]的文章
百度学术
百度学术中相似的文章
[罗延根]的文章
[李晓]的文章
[蒋同海]的文章
必应学术
必应学术中相似的文章
[罗延根]的文章
[李晓]的文章
[蒋同海]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于词向量的维吾尔语词项归一化方法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。