XJIPC OpenIR  > 多语种信息技术研究室
面向维汉机器翻译的维语命名实体的识别与翻译
张磊
学位类型硕士
导师李晓
2014-05-21
学位授予单位中国科学院大学
学位授予地点北京
学位专业计算机应用技术
关键词数词类 命名实体 维汉机器翻译 基于规则 基于统计
摘要

维吾尔语命名实体识别和翻译是维汉机器翻译的基础任务,也是信息检索、信息抽取、智能问答等技术的基础,研究并实现有效的维吾尔语命名实体识别与翻译系统是本文的主要研究内容。维吾尔语命名实体包括数词类和实体类,其中数词类包括时间、日期、货币、百分比,实体类包括地名、机构名、人名。当期中英文命名实体识别与翻译已经取得可实用的效果,而维吾尔语命名实体正处于初步研究阶段。维吾尔语命名实体有着特有的语法语义特点,汉语和英语中广泛实用的理论、模型和系统不能简单移植过来,需要结合语言特性做相应处理。本文工作包括三部分:基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译:通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的翻译F值达到了91%。基于规则的维吾尔语地名识别和翻译:总结了维吾尔语地名内部结构特征和相邻词信息,手动建立了地名词典库、首词库、中间词库和尾词库,实现了维吾尔语地名识别算法。实验表明,维吾尔语地名的翻译F值达到了76%。基于统计的维吾尔语机构名识别:将机构名识别问题转换为序列标注的问题来解决,利用条件随机场模型充分利用上下文信息和外部特征,实现对机构名的识别。实验表明,维吾尔语机构名识别的F值达到了82%。

其他摘要
Uyghur Named Entities Recognition and Translation is the premise and basic of Uyghur-Chinese Machine Translation, such as infomation retrieval ,question answering and so on. Uyghur Named Entities has its special syntactic and semantic characteristics,so the recognition of Uyghur Named Entities is not simple transplantation of widely used technology of the recognition of English and Chinese Named Entities. A Finite Automata Combined trigger words was used for basic number recognition and translation, then translation templates with weights were automatically extracted from Uyghur-Chinese Parallel corpus, finally the translation was achieved by a shortest path optimization algorithm. The F value of Recognition was 91% A research on the rule-based method for recognizing place names in text is conducted,and based on the internal structure feature of Uyghur place names, Xinjiang place name dictionary,first-word dictionary, middle-word dictionary and special word dictionary are established.Meanwhile, with large-scale text containing place names as the testing sample, and by usinginternal structure of place names and adjacent word information. The F value of Recognition was 73%. According to the syntactic and semantic characteristics of Uyghur organization name, summed up the rule of constructionof simple organization name and complicated organization name, then designs effective recognition rules,corresponding knowledge bases, and efficient recognition algorithm based on state transition and key-word matching. The F value of Recognition was 84%.
文献类型学位论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/3448
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
张磊. 面向维汉机器翻译的维语命名实体的识别与翻译[D]. 北京. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
面向维汉机器翻译的维语命名实体的识别与翻(1733KB)学位论文 开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张磊]的文章
百度学术
百度学术中相似的文章
[张磊]的文章
必应学术
必应学术中相似的文章
[张磊]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 面向维汉机器翻译的维语命名实体的识别与翻译.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。