中国科学院新疆理化技术研究所机构知识库
Advanced  
XJIPC OpenIR  > 多语种信息技术研究室  > 学位论文
题名: 维汉机器翻译中调序关键技术研究
作者: 陈科海
答辩日期: 2013-05-24
导师: 周喜
专业: 计算机应用
授予单位: 中国科学院大学
授予地点: 北京
学位: 硕士
关键词: 统计机器翻译 ; 维汉机器翻译 ; 粘着性 ; 模糊规则 ; 最大熵 ; 调序模型
摘要: 自然语言表现出多种多样不同的单词顺序,而统计机器翻译所面临的主要挑战之一就是如何模拟这些顺序的差异。机器翻译被看做是由两个相关联的问题组成:预测 译文中的单词和决定这些单词的顺序,也即翻译和调序。尽管许多研究者专注于改善翻译模型来提高译文质量,比如由最初的基于词的翻译模型,到基于短语的翻译 模型和基于层次短语的翻译模型,再到基于句法的翻译模型,都递进式的改善着机器翻译的性能。目前机器翻译开始步入瓶颈期,随着大语种之间平行语料收集规模 的不断扩大,一定程度的保障了译文的诚实度(译文是否覆盖了源句子的意思?),但是流利度(译文是否符合目标语言顺序?)面临着极大的挑战,尤其是面对资 源缺乏的小语种翻译,比如本文所研究的维汉机器翻译。在维汉机器翻译中,维吾尔语是一种形态学变化丰富的粘着性语言,也即通过在词干后附加词缀构成新词, 同时维吾尔语和汉语具有不同的句法结构,维吾尔语是主宾谓结构而汉语是主谓宾结构。其次维吾尔语属于小语种,平行语料资源困乏,在相同规模语料所构建的维 汉机器翻译系统中,结果译文中存在着严重的目标译文乱序现象,因此维汉机器翻译与中英等具有相同语序的大语种机器翻译相比,译文质量相差甚远。 针对上述维汉机器翻译所面临的挑战,本文通过认真学习钻研大语种机器翻译中的成熟理论和算法模型,同时认真分析维吾尔语自身的语法特性,提出了一种符合维 汉机器翻译特点的调序模型,并进行了实验系统验证。 本文的主要贡献如下: 1.针对维汉机器翻译的特殊性,通过深入学习分析维吾尔语的语法特点,比如构词方式、维汉语序差异等,重点研究了如何在维汉机器翻译中既能体现维吾尔语的 语法特点,又能兼顾当前翻译模型的优势。为此本文提出了一种基于维吾尔语短语的形式化定义,从而在短语级别上间接的体现维吾尔语词的特点,兼顾了维吾尔语 语法特性,以便能够在维汉机器翻译中构建性能良好的调序模型。2.当前维汉机器翻译系统所产生的译文中,存在着严重的乱序现象,导致维汉机器翻译系统翻译 性能偏低。针对该问题,本文对当前机器翻译领域的主流调序方法进行深入学习,在此基础之上,借助统计机器翻译中短语表的获取方法,从维汉平行语料中获取调 序实例,再按照维吾尔语短语的形式化定义对调序实例进行特征化,最后利用最大熵分类算法来估计调序特征的权重,使得对于维汉机器翻译具有更好的调序能力。 3.机器翻译的两大基本问题是翻译和调序。基本的翻译框架利用翻译模型来保证源语言和目标语言之间能够进行对应意义的翻译,而语言模型则是从诸多的翻译假 设中选择一个最符合目标语言的顺序的翻译假设,从而得到符合目标语言顺序的译文。本文通过深入学习钻研目前机器翻译领域中性能较好的开源翻译引擎之一 Moses,然后将本文所创建的维汉调序模型融入翻译引擎Moses之中,并与Moses中现有的调序模型进行实验对比,实验结果表明本文所构建的调序模 型在维汉机器翻译中优于Moses中现有的调序模型,较好的改善了译文中的乱序现象。
英文摘要:
Natural languages display a great variety of different word orders, and one of the major challenges facing statistical machine translation is in modeling these differences. Machine translation can be viewed as consisting of two interrelated problems: predicting the words in the translation and deciding on their order, that is translation and reordering. Although many researchers focus on improving the translation model to improve the quality of the translation, for example from Word -Based MT to Phrase-Based and Hierarchical Phrase-Based MT, also to Syntax-based MT, progressively improving the performance of machine translation. Presently, with the unceasing expansion of parallel language materials collection scale among big language classifications, the machine translation starts to enter bottleneck time, although the adequacy of translation has been a certain degree of protection (Does the output convey the same meaning as the input sentence?), the fluency of translation (Is the output good fluent English?)is facing the enormous challenge, particularly faces these sources deficient small language translation, for example Uyghur-Chinese machine translation that this article studies.
内容类型: 学位论文
URI标识: http://ir.xjipc.cas.cn/handle/365002/2480
Appears in Collections:多语种信息技术研究室_学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
陈科海硕士论文.pdf(1614KB)学位论文--暂不开放View 联系获取全文

作者单位: 中国科学院新疆理化技术研究所

Recommended Citation:
陈科海. 维汉机器翻译中调序关键技术研究[D]. 北京. 中国科学院大学. 2013.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[陈科海]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[陈科海]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
文件名: 陈科海硕士论文.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Powered by CSpace