XJIPC OpenIR  > 多语种信息技术研究室
维汉机器翻译未登录词识别研究
米成刚; 王磊; 杨雅婷; 陈科海
2013
发表期刊计算机应用研究
ISSN1001-3695
卷号30期号:4页码:239-241
摘要

针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。

其他摘要

Aimed at the phenomenon that there are so many out-of-vocabulary words in Uyghur-Chinese machine translation and the situation that the Uyghur language resources are very scarce,combined the features of Uyghur and string similarity algorithms, the paper presented an out-of-vocabulary word recognition model of Uyghur-Chinese machine translation which based on string similarity algorithms. With the help of phrase based model’s phrase table,and the external dictionary,the model computed the maximum strings similarity between the out-of-vocabulary word and the Uyghur words’in phrase table and dictionary, got the translation corresponding to the Uyghur word. The experiments show that compared with the out-of-vocabulary words recognition method which based on word segmentation,this model is better retaining the words’information,and also improves the quality of the translation.

关键词维汉机器翻译 短语表 字符串相似度算法 未登录词 词切分 编辑距离
收录类别CSCD
CSCD记录号CSCD:4802617
引用统计
被引频次:5[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/2449
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所;中国科学院大学
推荐引用方式
GB/T 7714
米成刚,王磊,杨雅婷,等. 维汉机器翻译未登录词识别研究[J]. 计算机应用研究,2013,30(4):239-241.
APA 米成刚,王磊,杨雅婷,&陈科海.(2013).维汉机器翻译未登录词识别研究.计算机应用研究,30(4),239-241.
MLA 米成刚,et al."维汉机器翻译未登录词识别研究".计算机应用研究 30.4(2013):239-241.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
维汉机器翻译未登录词识别研究.pdf(766KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[米成刚]的文章
[王磊]的文章
[杨雅婷]的文章
百度学术
百度学术中相似的文章
[米成刚]的文章
[王磊]的文章
[杨雅婷]的文章
必应学术
必应学术中相似的文章
[米成刚]的文章
[王磊]的文章
[杨雅婷]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 维汉机器翻译未登录词识别研究.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。