XJIPC OpenIR  > 多语种信息技术研究室
维吾尔文网页正文抽取系统的研究与实现
其他题名research and implementation of uyghur web content extraction system
蔡李; 单艳; 薛化建; 苏国平
2012
发表期刊计算机工程与设计
ISSN1000-7024
卷号33期号:2页码:551-555
摘要

从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。

关键词维吾尔文 网页正文抽取 语料库 文本句长特征 Web文本挖掘
收录类别CSCD
CSCD记录号CSCD:4452726
引用统计
被引频次:1[CSCD]   [CSCD记录]
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/1489
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所;中国科学院研究生院;新疆维吾尔自治区经济和信息化委员会
推荐引用方式
GB/T 7714
蔡李,单艳,薛化建,等. 维吾尔文网页正文抽取系统的研究与实现[J]. 计算机工程与设计,2012,33(2):551-555.
APA 蔡李,单艳,薛化建,&苏国平.(2012).维吾尔文网页正文抽取系统的研究与实现.计算机工程与设计,33(2),551-555.
MLA 蔡李,et al."维吾尔文网页正文抽取系统的研究与实现".计算机工程与设计 33.2(2012):551-555.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
维吾尔文网页正文抽取系统的研究与实现.p(335KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[蔡李]的文章
[单艳]的文章
[薛化建]的文章
百度学术
百度学术中相似的文章
[蔡李]的文章
[单艳]的文章
[薛化建]的文章
必应学术
必应学术中相似的文章
[蔡李]的文章
[单艳]的文章
[薛化建]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 维吾尔文网页正文抽取系统的研究与实现.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。