大数据挖掘:灵玖LJKeyScanner敏感词扫描

  • 发布时间:2016-12-06 15:10:31,加入时间:2016年09月02日(距今3187天)
  • 地址:中国»北京»海淀:北京市海淀区苏州街49-3号盈智大厦5层(总部)
  • 公司:灵玖中科软件(北京)有限公司, 用户等级:普通会员 已认证
  • 联系:张先生,手机:15801695527 微信:bigdatasaas 电话:010-62648216 QQ:2794994234

随着计算机的普及和互联网的高速发展,互联网上面的信息资料越来越丰富,成为人们进行信息交换的一种主要媒介。而与此同时,方便快捷的网路环境也为负面信息甚至反动信息的传播提供了一个途径。在这些网路信息中值得关注的信息统称为敏感信息,包括渋及反《+》动、色《+》情、暴《+》力等有害内容信息以及渋及特定话题的信息内容。对互联网敏感信息的监测是促进互联网健康发展的重点工作之一。目前已经成为一个全球性、开放性、互动性的综合性平台。它容纳了各类型的原始信息,提供了各类型的服务,比如信息获取、网上购物、即时性交流等,给人们工作、生活带来很大的便利。可以说它深入人们的方方面面,是人类信息化技术的一次革命。

  对互联网敏感信息进行监测的技术关键在于对互联网敏感信息进行有效识别,其难点有两个方面:

(1)出现敏感词的信息并不一定是敏感信息,例如:批评法<+>轮<+>功的文章会出现法<+>轮<+>功相关的敏感词汇,但该文章并不是敏感信息。

  (2)敏感词汇经常通过变化形式逃避计算机的自动识别,其变形方式通常包括字音变换、字形变换、插入无效符号、图像化及这几类变形的组合等。

  同时,互联网上信息内容数量巨大,要从中快速准确的发现识别出敏感信息,算法的速度也是需要考虑的重要因素。

  灵玖LJKeyScanner敏感词扫描系统就是在这个背景下产生的。LJKeyScanner是针对互联网关键词敏感搜索的需求,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。采用KS_Scan等技术,通过分别扫描文本内存与文件,可以得出敏感关键词及类别、权重等信息。同时,系统可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。

  LJKeyScanner系统是灵玖软件多位专家经过不断研发和实验,针对敏感关键词搜索业务需求而打造的一套组件系统,具有专业精准、高扩展性和高通用性的特点。可支持文字、数字、特殊符号、繁体字等各种文本关键词的敏感扫描,支持各类数据库实时搜索服务,并支持多语言。

  具体主要的贡献和工作有:

  (1) 提出了一个基于文本挖掘理论的敏感文本识别算法。经过大量的统计与观察,导向型网页中词汇之间的语义联系通常很弱,可以视为相对独立的。基于这个结论,首先定义敏感类的关键词,然后将这些词的词频视为基本的语义统计信息并且作为分类器的输入数据,经过分类器处理后,输出一个概率,此概率值表示目标网页包含敏感信息的可能性。

  (2) 提出了一个综合分治法和文本信息融合的敏感网页处理系统框架。该框架针对不同类型的网页,应用不同的文本进行针对性的处理。最后利用信息融合技术结合各分类器的输出结果对目标网页是否包含敏感信息得到一个总体评价。

  (3) 提出了一个利用多实例学习思想对网页集合的快速识别的算法。通常我们需要处理的对象是一个网站而不是单个网页,所以应用多实例学习算法以网站为单位进行敏感信息识别可以有效的提高识别效率。

  (4) 设计并实现了一个网页敏感信息过滤系统。

  (5) 利用多实例算法改进了原敏感信息主动搜索系统,提升了识别效率。

联系我时请说明来自志趣网,谢谢!

免责申明:志趣网所展示的信息由用户自行提供,其真实性、合法性、准确性由信息发布人负责。使用本网站的所有用户须接受并遵守法律法规。志趣网不提供任何保证,并不承担任何法律责任。 志趣网建议您交易小心谨慎。