二、文本挖掘三个方面
1.中文分词
在语言处理中,为了能更好地处理句子,往往需要将句子拆分为词语。中文分词是将句子中的汉字切分为单独的词,相比于英文的切分,汉字的切分要更加的困难,但是Python提供的中文分词jieba库很好的解决了这个问题。我们将答案先导入到txt文件然后导入Python进行一系列的处理,最后得到结果。
2.词频统计
中文词频统计著名的应用则是红楼梦的实例,我们仿照红楼梦词频统计的方式,先将一些没有实际意义但是频率很高的词如“的、了、得、并且”等,运用stopwordslist结合停用词文件进行删除,最后得到词频统计结果。
3.词云绘制
我们使用Python的wordcloud库对出现频率较高的“关键词”予以视觉化的展现,因为词云自动过滤了大量低频低质的文本信息,所以可以让人直观了解到主要原因。
三、文本挖掘的结论
通过上述操作,我们针对受调查者的回答总结如下:
1.用户已经认识到绿色墙体的优势
从词云中的“环保”、“绿色”等词中,我们可以看出,消费者对环保墙纸所带来的好处已经有了一定认识。意识到绿色墙体的发展能够对环境的保护和可持续发展将产生正向作用。
http://www.dxsbao.com/shijian/551089.html 点此复制本页地址