XJIPC OpenIR  > 多语种信息技术研究室
基于字符串相似度的维吾尔语中汉语借词识别
其他题名Recognition of Chinese Loan Words in Uyghur Based on String Similarity
米成刚; 杨雅婷; 周喜; 李晓; 杨明忠
2013
发表期刊中文信息学报
ISSN1003-0077
卷号27期号:5页码:173-178+190
摘要

维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等).该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法.该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型.实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果.

其他摘要

There are many Out-Of-Vocabulary words in Uyghur-Chinese machine translation, a large part of them are loan words (including person names, place names, et.al). This paper presents a novel method that recognition the Chinese loan words in Uyghur according to the feature that one loan word pronounce similar with its original word. This method training the existing corpus first, and getting the Uyghur Latin rules that use to recognize Chinese loan word in Uyghur; this paper Latin the Uyghur words according to the rules, Romanization of Chinese words, these transform the sounds similarity to strings similarity which is easy to quantification; proposed three models: Position-related Minimum Edit Distance model, Weighted Common Subsequence model and the fusion model that fused above two with parameters. The experimental results show that the fusion model considering strings' global similarity and local similarity, so it gets the best recognition results.

关键词借词 未登录词 发音相似度 字符串相似度
收录类别CSCD
CSCD记录号CSCD:4969152
引用统计
被引频次:1[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/3717
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
米成刚,杨雅婷,周喜,等. 基于字符串相似度的维吾尔语中汉语借词识别[J]. 中文信息学报,2013,27(5):173-178+190.
APA 米成刚,杨雅婷,周喜,李晓,&杨明忠.(2013).基于字符串相似度的维吾尔语中汉语借词识别.中文信息学报,27(5),173-178+190.
MLA 米成刚,et al."基于字符串相似度的维吾尔语中汉语借词识别".中文信息学报 27.5(2013):173-178+190.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于字符串相似度的维吾尔语中汉语借词识别(715KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[米成刚]的文章
[杨雅婷]的文章
[周喜]的文章
百度学术
百度学术中相似的文章
[米成刚]的文章
[杨雅婷]的文章
[周喜]的文章
必应学术
必应学术中相似的文章
[米成刚]的文章
[杨雅婷]的文章
[周喜]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于字符串相似度的维吾尔语中汉语借词识别.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。