XJIPC OpenIR  > 多语种信息技术研究室
维吾尔文网页正文抽取系统的研究与实现
Alternative Titleresearch and implementation of uyghur web content extraction system
蔡李; 单艳; 薛化建; 苏国平
2012
Source Publication计算机工程与设计
ISSN1000-7024
Volume33Issue:2Pages:551-555
Abstract

从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。

Keyword维吾尔文 网页正文抽取 语料库 文本句长特征 Web文本挖掘
Indexed ByCSCD
CSCD IDCSCD:4452726
Citation statistics
Cited Times:1[CSCD]   [CSCD Record]
Document Type期刊论文
Identifierhttp://ir.xjipc.cas.cn/handle/365002/1489
Collection多语种信息技术研究室
Affiliation中国科学院新疆理化技术研究所;中国科学院研究生院;新疆维吾尔自治区经济和信息化委员会
Recommended Citation
GB/T 7714
蔡李,单艳,薛化建,等. 维吾尔文网页正文抽取系统的研究与实现[J]. 计算机工程与设计,2012,33(2):551-555.
APA 蔡李,单艳,薛化建,&苏国平.(2012).维吾尔文网页正文抽取系统的研究与实现.计算机工程与设计,33(2),551-555.
MLA 蔡李,et al."维吾尔文网页正文抽取系统的研究与实现".计算机工程与设计 33.2(2012):551-555.
Files in This Item:
File Name/Size DocType Version Access License
维吾尔文网页正文抽取系统的研究与实现.p(335KB)期刊论文作者接受稿开放获取CC BY-NC-SAView Application Full Text
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[蔡李]'s Articles
[单艳]'s Articles
[薛化建]'s Articles
Baidu academic
Similar articles in Baidu academic
[蔡李]'s Articles
[单艳]'s Articles
[薛化建]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[蔡李]'s Articles
[单艳]'s Articles
[薛化建]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 维吾尔文网页正文抽取系统的研究与实现.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.