中国科学院新疆理化技术研究所机构知识库
Advanced  
XJIPC OpenIR  > 多语种信息技术研究室  > 期刊论文
题名: 维汉机器翻译未登录词识别研究
作者: 米成刚; 王磊; 杨雅婷; 陈科海
关键词: 维汉机器翻译 ; 短语表 ; 字符串相似度算法 ; 未登录词 ; 词切分 ; 编辑距离
刊名: 计算机应用研究
发表日期: 2013
卷: 30, 期:4, 页:239-241
资助者: 中国科学院战略性先导科技专项资助项目(XDA06030400);中国科学院“西部之光”人才培养计划“西部博士”资助项目(XBBS201216)
摘要: 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。
英文摘要: Aimed at the phenomenon that there are so many out-of-vocabulary words in Uyghur-Chinese machine translation and the situation that the Uyghur language resources are very scarce,combined the features of Uyghur and string similarity algorithms, the paper presented an out-of-vocabulary word recognition model of Uyghur-Chinese machine translation which based on string similarity algorithms. With the help of phrase based model’s phrase table,and the external dictionary,the model computed the maximum strings similarity between the out-of-vocabulary word and the Uyghur words’in phrase table and dictionary, got the translation corresponding to the Uyghur word. The experiments show that compared with the out-of-vocabulary words recognition method which based on word segmentation,this model is better retaining the words’information,and also improves the quality of the translation.
内容类型: 期刊论文
URI标识: http://ir.xjipc.cas.cn/handle/365002/2449
Appears in Collections:多语种信息技术研究室_期刊论文

Files in This Item:
File Name/ File Size Content Type Version Access License
维汉机器翻译未登录词识别研究.pdf(766KB)期刊论文作者接受稿开放获取View 联系获取全文

作者单位: 中国科学院新疆理化技术研究所;中国科学院大学

Recommended Citation:
米成刚,王磊,杨雅婷,等. 维汉机器翻译未登录词识别研究[J]. 计算机应用研究,2013,30(4):239-241.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[米成刚]'s Articles
[王磊]'s Articles
[杨雅婷]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[米成刚]‘s Articles
[王磊]‘s Articles
[杨雅婷]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
文件名: 维汉机器翻译未登录词识别研究.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Powered by CSpace