在本次的社会实践活动中,我对我国的税收政策有了新的理解,同时也在不断的学习新的知识技能。
刚开始的时候,由于我所学专业——数据科学与大数据技术,这让我对大数据分析有着浓厚的兴趣。因此,我选择了人们关于“生态、新建设”在网络中讨论与评价的文本分析。采用了很多自然语言处理的模型,也精炼了爬虫技术。刚开始接触到网络爬虫的时候,我就知道网络爬虫在某种程度上属于不正规获取数据的手段,因此在实际操作的过程中更加小心谨慎。在代码中加入时间间隔限制,每次爬取100组评论信息,每爬取一组停顿1秒。这样的操作下虽然时间消耗比较大,但是确保的网站的安全性,保证所爬取的论坛不会出现崩溃。最终我得到了一个惊讶的数据,几十万条的评论信息。这让我更加兴奋。同时也有所担心。因为同时处理如此之多的数据样本,而且还是非结构数据,对电脑性能和操作技术都有较高的要求。我保证不怕错,在错误中不断学习的心态,一步一步的处理数据。遇到报错,就在各个技术论坛搜索错误原因,模型不断改进的过程中,我的专业技能也得到了不断的强化。为了更加全面研究网络关于生态保护现象的讨论与关注,团队成员根据各大平台关于农村生态环境现象的发帖情况“作为网络爬虫的三大代表性主题词,有效避免了所获取数据的单一化。确定主题词后,团队成员选取了微博、哔哩哔哩、知乎三大平台并使用python对三大平台网页中关于主题词的评论与发帖量进行初步统计,统计结果显示在三大平台当中,微博的讨论数量最高,但其文本价值却不如其他两个平台。另外可以看出,微博平台上三大主题词的分布较为平均,哔哩哔哩中获得最高评论量的为”生态保护“”农村污染的刑事处罚“在知乎中占比最高。
在处理处理文本时,我遇到的最有意思的一个问题就是,很多人进行评论时非常喜欢使用表情。这些表情的使用让我对文本处理的难度加大,一开始我想尽办法要剔除这些表情符号。但我转念一想,这些表情不也是一种传达情感的方式吗。在使用LDA算法时,我特意把表情符号加入训练集中,并标注所表示的主题含义,最终得到了更好的结果。数据所蕴含的信息是巨大的,往往我们可以发现很多很多有趣的信息。在深入的文本分析中,我发现我爬取信息竟然包括了用户手机的信息。手机品牌和型号的信息很难被利用,但是通过多角度的挖掘还是可以获取到很多有用信息。比如,我们发现发表评论的手机型号,一般都是进两年内的,而且更喜欢使用表情符号。这就说明了喜欢参与网络讨论的年轻人,还是占据了主体。
在不断的信息发掘中,团队从文本情感分析和词性主题分类两方面对之前得出的分词结果进行分析。通过文本情感分析,团队可以看出绝大多数民众都是坚决支持税收政策,认为偷税漏税是一件非常可耻的行为,并在发表的评论中表达了自己愤怒的情绪;通过词性主题分类,得出在形容关键词中,”可耻“、”不可理解“、”无语“、”可恨“词频排名前四、动词关键词中,”罚款“、”追缴“是关注度的最高的两个词语、名词关键词中,”污染“一词独占鳌头,其次是”环保“、”农村建设“的结论。总之,通过分析,团队不难发现民众对农村污染这一事件不仅仅是被动的发泄情绪,还有相当一部分人通过这一事件认识到的税收的相关法律知识,并且主动去了解和学习。
信息的发掘是不断探索的过程,不断学习不断进步。
http://www.dxsbao.com/shijian/505728.html 点此复制本页地址