文本挖掘,是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。具体说来,文本挖掘以文本型信息源为分析对象,利用智能算法,如神经网络、基于案例的推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、网页、企业管理日志等),从中寻找信息的结构、模型、模式等各种隐含的知识。
在现实世界中,知识不仅以传统数据库中的结构化数据的形式出现,还以诸如书籍、研究论文、新闻文章、WEB页面及电子邮件等各种各样的形式出现。面对以这些形式出现的、浩如烟海的信息源,人类的阅读能力、时间精力等等往往不够,需要借助计算机的智能处理技术来帮助人类及时、方便的获取这些数据源中隐藏的有用信息。因此,文本挖掘技术就在这种背景下产生和发展起来的。
文本挖掘的根本价值在于能把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。
文本挖掘的作用在于提高了海量非结构化信息源的利用价值,使得人们能够更加方便地从海量文本中发现隐含的知识。因此,文本挖掘广泛应用于以下领域:①网上有害信息监测、过滤和跟踪
②科技文献分析
③网上论坛/社交媒体的实时监控
④电子邮件分类与过滤
文本挖掘的一般步骤:
一、获取文本
一般来说网络文本的获取,主要是网页的形式。我们要把网络中的文本获取形成一个文本数据库(数据集)。利用爬虫技术抓取到网络中的信息。爬虫可以有主题爬虫和通用爬虫之分,主题爬取主要是在相关站点爬取或者爬取相关主题的文本,而通用爬虫则一般对此不加限制。
二、对文本进行预处理
由于网页中存在很多不必要的信息,比如说一些广告,导航栏,html、js代码,注释等等,接下来还需要对文本中的信息进行筛选,也就是对文本进行预处理。
三、分词系统
经过上面的步骤,能得到比较干净、可用的文本信息。我们知道,文本中起到关键作用的是一些关键词,这些关键词决定着文本的取向。这里就会用到一个分词系统或者说分词工具。现在常见分词的算法有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等。目前国内普遍用到的是中科院的分词工具ICTCLAS,该算法经过众多科学家的认定是当今中文分词中最好的,并且支持用户自定义词典,加入词典。对新词、人名、地名等的发现也具有良好的效果。
四、特征选择
经过上面的步骤,基本能够得到有意义的一些词。但是这些所有的词都有意义吗?显然不是这样的,有些词会在这个文本集中大量出现,有些只是出现少数几次而已。他们往往也不能决定文章的内容。还有一个原因就是,如果对所有词语都保留,维度会特别高,矩阵将会变得特别特别稀疏,严重影响到挖掘结果。那么对这些相对有意义的词语选取哪一本分比较合理呢?针对特征选择也有很多种不同的方式,但是改进后的TF*IDF往往起到的效果是最好的。tf-idf模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。
五、利用算法进行挖掘
经过上面的步骤之后就可以把文本集转化成一个矩阵。然后再利用各种算法进行挖掘,比如说如果要对文本集进行分类,我们可以利用KNN算法、贝叶斯算法、决策树算法等等。文本挖掘的结果可以通过各种可视化的技术展现出有意义的图表,比如:人物关系图、力导向布局图、和弦图等,这些带有业务意义的、表现力丰富的图表能帮助人们对文本挖掘结构的理解。
http://www.dxsbao.com/shijian/643282.html 点此复制本页地址