XJIPC OpenIR  > 多语种信息技术研究室
基于正文相关度的维吾尔网页正文提取
王瑞; 周喜; 李晓
2012
发表期刊计算机工程
ISSN1000-3428
卷号38期号:21页码:153-156+160
摘要

网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。

其他摘要

In addition to the main content, most Uighur Web contain noises such as navigation panels, advertisements which are not related to the main content. To improve the efficiency of security detection, this paper presents a content extraction algorithm of Uighur Web based on Web text correlativity, and designs the model of text density and content scale to improve the algorithm. Experimental result shows that this algorithm can extract the main content from the Uighur Web efficiently.

关键词正文提取 正文相关度 信息安全 自然语言处理 正文密度
收录类别CSCD
CSCD记录号CSCD:4697111
引用统计
文献类型期刊论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/2412
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所;中国科学院研究生院
推荐引用方式
GB/T 7714
王瑞,周喜,李晓. 基于正文相关度的维吾尔网页正文提取[J]. 计算机工程,2012,38(21):153-156+160.
APA 王瑞,周喜,&李晓.(2012).基于正文相关度的维吾尔网页正文提取.计算机工程,38(21),153-156+160.
MLA 王瑞,et al."基于正文相关度的维吾尔网页正文提取".计算机工程 38.21(2012):153-156+160.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于正文相关度的维吾尔网页正文提取.pd(1297KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王瑞]的文章
[周喜]的文章
[李晓]的文章
百度学术
百度学术中相似的文章
[王瑞]的文章
[周喜]的文章
[李晓]的文章
必应学术
必应学术中相似的文章
[王瑞]的文章
[周喜]的文章
[李晓]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于正文相关度的维吾尔网页正文提取.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。