XJIPC OpenIR  > 多语种信息技术研究室
基于统计的词素切分算法
董兴华; 杨雅婷; 陈丽娟; 周喜; 吐尔洪·吾司曼
2010
会议名称第五届全国青年计算语言学研讨会(YWCL 2010)
会议日期2010
会议地点武汉
摘要

这篇论文描述了一种基于统计的词素切分算法,算法构建了一种数据结构,在该结构中语料库中的每个词都可以表示为它的词素的二叉树。因为每个词有不同的词素分割,算法选择使整体概率最高的分割,从而找到最优的词素词典和词的分割。我们用英语和维吾尔语作为实验数据,得出了较好的结果。

关键词词素 统计分割 二叉树 维语
主办者中国中文信息学会
文献类型会议论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/2348
专题多语种信息技术研究室
作者单位中国科学院 新疆理化技术研究所
推荐引用方式
GB/T 7714
董兴华,杨雅婷,陈丽娟,等. 基于统计的词素切分算法[C],2010.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于统计的词素切分算法.pdf(344KB)会议论文 开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[董兴华]的文章
[杨雅婷]的文章
[陈丽娟]的文章
百度学术
百度学术中相似的文章
[董兴华]的文章
[杨雅婷]的文章
[陈丽娟]的文章
必应学术
必应学术中相似的文章
[董兴华]的文章
[杨雅婷]的文章
[陈丽娟]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于统计的词素切分算法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。