中国科学院新疆理化技术研究所机构知识库
Advanced  
XJIPC OpenIR  > 多语种信息技术研究室  > 学位论文
题名: 基于语料自动获取的维汉译文消歧关键问题研究
作者: 杨勇
答辩日期: 2013-05-24
导师: 李晓
专业: 计算机应用技术
授予单位: 中国科学院大学
授予地点: 北京
学位: 博士
关键词: 译文消歧 ; 语料自动获取 ; 词义消歧 ; 最大熵方法 ; 语料库过滤
摘要: 新疆是一个多民族的聚居地,少数民族尤其是维吾尔族在新疆人口中占有很大的比例。在信息互相交融的今天,各民族之间的文化交流日益频繁,如何借助先进的信 息技术完成机器翻译、跨语言知识检索等任务已成为人们迫切的需求。目前对这些研究仍然存在着许多的难题,其中一个关键问题是源语言中的多义词在翻译过程中 如何正确选择目标语中词汇的问题,称之为译文消歧。维汉译文消歧研究作为一个“中间任务”直接关系到维汉机器翻译、维汉跨语言问答等语言处理应用系统的效 率和成败,是计算语言学中一个关键性的基础研究课题。 综合分析译文消歧和词义消歧研究过程出现的各种问题。本文认为维汉译文消歧研究的关键问题是消歧资源建设和消歧方法研究。在消歧资源建设方面,本文主要进 行了维吾尔语多义词对应的汉语译文标注库的自动构建研究,针对自动获取的译文标注库精度不高的缺点,提出了多种方法用于过滤语料,提高了译文标注库的实际 使用价值。在消歧方法方面,根据维吾尔语的特点,研究融合多特征的词义消歧方法,为维吾尔语译文消歧的研究打下了基础。本文具体研究内容包括以下几个方 面: 1.为了解决维汉译文消歧研究中消歧资源短缺的问题,提出了一种利用维吾尔语多义词各词义对应的汉语译文自动获取译文标注语料库的方法,在此基础上基于改 进的HMM模型建立了维汉译文消歧框架,实现了在自动获取的标注语料上维汉译文的消歧。 2.为了进一步扩大译文标注语料库的规模,提出了利用目标词的等价同义词自动获取标注语料的方法。为了提高自动获取标注语料的质量,分别从等价同义词和句 子两个层面对语料进行过滤。在等价同义词的筛选方面,提出一种多策略结合的词语相似度算法,既使用已有的知网资源,从中获取词语之间直接的相互联系,也使 用统计信息,将词语相关性的因素引入词语相似性的计算中,从目标词的同义词中筛选出相似度最高的词作为等价同义词。在句子筛选方面,对利用等价同义词获取 的实例句子,通过目标词的上下文与所获实例的上下文共现频率来过滤噪音实例。通过两种方法的过滤,极大的提高了自动获取语料的质量。 3.针对维汉译文消歧的需要,进行了维吾尔语词义消歧研究,基于最大熵模型建立了融合维吾尔语特点的词义消歧模型,结合多种模型的方式来提高消歧结果的准 确率,在训练语料规模不变的情况下,有效的提高了词义消歧的准确率。
英文摘要:
Xinjiang is a multi-ethnic settlement and the ethnic minority especially Uighurs occupies a great proportion in the population of Xinxiang. In this information communion era, cultural exchange among nationalities is more and more frequent and how to use advanced information technology to complete machine translation and cross-language knowledge retrieval and other tasks has become the urgent requirement of people. Nowadays, there are many problems for these studies and one of key issues is how to choose words correctly for the polysemous words of the target language in the process of translation, which is called translation disambiguation. As a “middle task”, Uygur and Chinese translation disambiguation research is directly related to the efficiency and success or failure of language processing application systems such as machine translation and cross-language question and answer between Uygur and Chinese and it is a key basic research topic in computational linguistics.
内容类型: 学位论文
URI标识: http://ir.xjipc.cas.cn/handle/365002/2496
Appears in Collections:多语种信息技术研究室_学位论文

Files in This Item:
File Name/ File Size Content Type Version Access License
杨勇博士论文.pdf(660KB)学位论文--暂不开放View 联系获取全文

作者单位: 中国科学院新疆理化技术研究所

Recommended Citation:
杨勇. 基于语料自动获取的维汉译文消歧关键问题研究[D]. 北京. 中国科学院大学. 2013.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[杨勇]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[杨勇]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
文件名: 杨勇博士论文.pdf
格式: Adobe PDF
此文件暂不支持浏览
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Powered by CSpace