随着Internet上文档信息的迅猛发展,文本挖掘成为处理和组织大量文档数据的关键技术。对海量文本数据进行分析和挖掘,从中获取有用的知识,成为关注热点。
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短.传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的.
我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:
1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。
2)中文文本的特征提取与表示大多数采用“词袋”法,“词袋”法即提取文本高频词构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。
3)知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。
灵玖软件NLPIR大语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器。
NLPIR大语义智能分析平台平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
文本挖掘的动机是来自于潜藏于电子形式中的大量的文本数据.利用数据挖掘技术处理公司大量的文本数据,将给企业带来巨大的商业价值.另外人们对于文本挖掘的感兴趣的原因还在于:人们有时候并不知道他们到底要找什么,而挖掘能够从数据库中抽取出许多有用的信息.尽管对于文本挖掘的需求是非常强烈的,国内外学者也都在进行积极的研究 。而NLPIR大语义智能中文信息处理技术的出现已成为中文信息技术研究、发展、应用和产业的提供了重要的帮助,在互联网日益成长的今天,NLPIR大语义智能中文信息处理技术将会更加成熟并创新。