XJIPC OpenIR  > 多语种信息技术研究室
维吾尔语网页正文提取与敏感词过滤的研究
王瑞
学位类型硕士
导师李晓
2012-05
学位授予单位中国科学院研究生院
学位授予地点北京
学位专业计算机应用技术
关键词正文提取 正文相关度 敏感词过滤 多模式匹配 Aho–corasick算法
摘要

软件测试是保证软件产品质量的重要手段。其中,如何生成最少的测试输入数据而能对程序进行最全面的测试,成为了人们研究的一个重要课题。测试方法主要分为动态测试和静态测试。 符号执行是一种静态测试方法,它利用符号值代替具体数值对程序的行为进行模拟,实现对程序的分析测试。传统符号执行中对程序方法的指令处理顺序采用了单一的前向遍历,这样会记录很多的冗余信息,它们对程序的执行路径没有影响;另外,符号执行产生的表达式,会由于不断的符号替换等操作,增加表达式的规模,最终会降低输入数据的求解速度。 本文首先介绍了软件测试的研究背景及现状,包括测试数据自动生成的现有方法。针对符号执行中存在的问题,构建了一个生成测试数据的框架。作为符号执行的前提,该框架首先从字节码文件中提取程序的指令信息,并以此获得程序的控制结构和执行路径;然后对传统的符号执行过程进行了改进,包括对指令的建模,通过结合现有两种访问程序指令的方式,避免对部分冗余信息的记录,提高了获取路径条件表达式的速度。另外,利用现有的计算机代数系统,对路径条件表达式进行了更加彻底的化简,这有助于约束系统更快的求解出测试数据,进而提高整个测试数据生成过程的效率。 文章最后,对新方法进行了代码实现,并选取几个程序进行了简单实验,结果表明了新方法的有效性。

其他摘要

As the development of economy and culture of Xinjiang Uighur Autonomous Region, the information contained in Uighur webpage also increase rapidly. Meanwhile, bad information has become full of the internet. So the Uighur website monitoring system is essential to be designed and developed to control the Uighur information on the internet, which can provide an effective tool for the ethnic minority to information retrieval and a better service for the technical investigation departments to monitor the bad information on the internet. Because some Uighur webpage encoding is not standardized, pretreatment for Uighur webpage is necessary. An algorithm based on regular rule is designed and implemented, which can make the Uighur webpage source code uniformly converted to Unicode encoding format. In addition to the main content, most Uighur webs also contain noises such as navigation panels, advertisements which are not related to the main content. To improve the efficiency of security detection, we present a content extraction algorithm of Uighur web based on web text correlativity, and design the model of text density and content scale to improve the algorithm. The experimental result proves that this algorithm can extract the main content from the Uighur web efficiently. One of the main character of bad Uighur webpages is that they contain bad words(keywords). So keywords filtering is one of the most important methods for the Uighur website monitoring system to monitor the bad information on the internet. Given a keyowrds library and a webpage, the monitoring system should find the keywords in the library which appear in the webpage efficiently. Because the keyowrds library is so large that the speed of keywords filtering affects the whole speed of the whole system very much. An improved Aho–Corasick pattern matching algorithm was designed and the experimental result proves that this algorithm can find the keywords for the Uighur webpages efficiently.

文献类型学位论文
条目标识符http://ir.xjipc.cas.cn/handle/365002/4369
专题多语种信息技术研究室
作者单位中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
王瑞. 维吾尔语网页正文提取与敏感词过滤的研究[D]. 北京. 中国科学院研究生院,2012.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
维吾尔语网页正文提取与敏感词过滤的研究.(1387KB)学位论文 开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王瑞]的文章
百度学术
百度学术中相似的文章
[王瑞]的文章
必应学术
必应学术中相似的文章
[王瑞]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 维吾尔语网页正文提取与敏感词过滤的研究.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。