LJParser系统平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
灵玖LJParser系统平台是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
随着科技的不断提高,互联网也得到了飞速的发展,人们享受网络技术带来的美好生活,同时也使某些非法分子通过互联网络传送着非法信息。敏感词扫描,一个很经典的需求场景,目前我们要对一个每天上千万消息的聊天系统做敏感词过滤优化,之前的解决方案是,每次从redis中取出敏感词集合,然后做遍历操作,使用indexOf查看是否出现在聊天消息中,鉴于消息的高频转发,所以每次从redis中读取敏感词库方案已经不太适用该场景。
因此灵玖LJParser系统平台敏感扫描模块就是在这个背景下产生的。目前网页过滤方法主要有关键字过滤、神经元算法、概率统计等技术。据统计网络中70%内容是以文本形式存在,并且关键词过滤相对于别的语义过滤实现简单,过滤速度快等特点,所以灵玖LJParser系统平台敏感扫描模块就是以敏感关键词扫描来实现关键词过滤的一套处理系统。
灵玖LJParser系统平台敏感扫描模块是是针对互联网关键词敏感搜索的需求,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。组件以Data文件夹的设置同分词,只需要设置data所在目录即可,采用KS_Scan等技术,通过分别扫描文本内存与文件,可以得出敏感关键词及类别、权重等信息。、
灵玖LJParser系统平台敏感扫描模块应用
1、敏感内容信息过滤
可以设定敏感关键词,针对文章内容、信息关键词进行扫描,可以对敏感信息、事件、人物等信息进行剔除或抓取,适用于网站、出版、上网行为管理。通过针对特定关键词设定,可以过滤大量垃圾信息,净化互联网环境,适用于信息网站、各种论坛的信息整理。
2、敏感账号扫描
通过设定一个或一组敏感账号进行扫描,可以跟踪相关账号的传播路径、权重、受众群体及社会反响等互联网信息,适用于产品、人物跟踪。
3、特定信息情报实时发现
可以快速便捷地匹配大量自定义的业务关键词,智能发现违法国家法律法规以及侵犯用户权益的内容,达到净化网络空间、提取情报的目的,确保国家、社会与个人的信息内容安全。
灵玖LJParser系统平台敏感扫描模块主要完成对待检测网页的敏感关键词检测,并对检测出的敏感关键词,标出其在源文件中的位置,将检测结果与检测时间等信息写入敏感关键词检测结果表中。