当前位置: 主页 > 社会实践 >

网络爬虫应用情景分析

来源:山东大学 作者:Vendy

随着互联网信息的“爆炸”,网络爬虫渐渐为人们所熟知,并被应用到了社会生活的众多领域。作为一种自动采集网页数据的技术,很多人其实并不清楚网络爬虫具体能应用到什么场景。事实上,大多数依赖数据支撑的应用场景都离不开网络爬虫,包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。

搜索引擎是通用网络爬虫最重要的应用场景之一,它会将网络爬虫作为最基础的部分——互联网信息的采集器,让网络爬虫自动到互联网中抓取数据。例如谷歌、百度、必应等搜索引擎都是利用网络爬虫技术从互联网上采集海量的数据。

政府或企业通过网络爬虫技术自动采集论坛评论、在线博客、新闻媒体或微博等网站中的海量数据,采用数据挖掘的相关方法(如词频统计、文本情感计算、主题识别等)发掘舆情热点,跟踪目标话题,并根据一定的标准采取相应的舆情控制与引导措施。例如,百度热点排行榜、微博热搜排行榜。

如今出现的很多聚合平台,如返利网、慢慢买等,也是网络爬虫技术的常见的应用场景,这些平台就是运用网络爬虫技术对一些电商平台上的商品信息进行采集,将所有的商品信息放到自己的平台上展示,并提供横向数据的比较,帮助用户寻找实惠的商品价格。例如,用户在慢慢买平台搜索华为智能手表后,平台上展示了很多款华为智能手表的价格分析及价格走势等信息。

出行类软件,比如飞猪、携程、去哪儿等,也是网络爬虫应用比较多的场景。这类应用运用网络爬虫技术,不断地访问交通出行的官方售票网站刷新余票,一旦发现有新的余票便会通知用户付款买票。不过,官方售票网站并不欢迎网络爬虫的这种行为,因为高频率地访问网页极易造成网站出现瘫痪的情况。

爬虫介绍

爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,就是用代码模拟人的行为,去各各网站溜达、点点按钮、查查数据。或者把看到的数据拿下来。

作用:

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

爬虫应用领域:

批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析

批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销

批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览

开发一款火车票抢票程序,以实现自动抢票

爬取评论,舆情监控

爬取说说信息,分析上线时间

爬虫的合法性:

俗话说:“爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够”。

爬虫是否违法视情况而定。

合法的爬虫:

公开的数据,没有标识不可爬取

不影响别人服务器

不影响的业务

不合法的爬虫:

用户数据

部分网站、APP数据超过指定数量

明文规定不让爬取

在域名后加上/robots.txt查看

页面上标明

影响业务

影响服务器

类似DDOS攻击的问题

disallow就是不允许爬虫,allow允许。

但是并非所有网站都会有robots.txt来提供是否允许爬虫的信息,这时候就看自己了哈哈哈哈哈。

我们能爬的数据并不代表合法,需要谨慎判断。

提示:

部分爬虫虽然违法,但公司、或企业不会直接报警。会采用反爬的手段,严重后才会报警。

反爬与反反爬:

反爬:有时企业不想自己的数据被别人拿到。这时就会设置反爬的手段,来不让爬虫获取数据。

反爬虫常用一些手段:

合法检测:请求校验(useragent,referer,接口加签 ,等)

验证码:识别文字、做题、滑动等

小黑屋:IP/用户限制请求频率,或者直接拦截

投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策

反反爬:破解掉反爬手段,再获取其数据。(话说所有的手段都能破解嘛?)

道高一尺魔高一丈,这是一场没有硝烟的战争,程序员VS程序员

http://www.dxsbao.com/shijian/549487.html 点此复制本页地址

相关内容

长治医学院“老少共话二十大 砥砺奋进新征程”师生座谈会感悟收获

获取爱,只有一个人的快乐,付出爱,却会让更多人得到幸福——所以他们不求回报、无私奉献,用一生书写奋斗,将爱流传千古。为深入学习宣传贯彻党的二十大精神,积极响应2023年“读懂中国…… 长治医学院“星火 长治医学院查看全文 >>

青春同城·一“潞”前行交流研学活动

青春同城·一“潞”前行。2023首届长治高校文化艺术交流节启动后,7月8日上午,长治医学院35余名师生赴长治学院开展交流研学活动。首先,长治医学院师生参观动物标本馆。在讲解员的带领下,…… 长治医学院“星火 长治医学院查看全文 >>

长治医学院社会实践团队开展“老少共话二十大 踔厉奋发新征程”师生座谈会

为深入学习宣传贯彻党的二十大精神,积极践行2023年“读懂中国”活动,6月30日下午,由校团委、人文艺术传媒系和基础医学部分别组建的暑期社会实践团队四十余名师生,齐聚润智楼网络中心会…… 长治医学院“星火 长治医学院公共卫生与预防医学系查看全文 >>

“红色经典,赓续传承”--读懂中国“星火”志愿服务队实践纪实

为了深入学习宣传贯彻党的二十大精神、充分发挥好“五老”亲历者、见证者、实践者的优势,向广大青年学生讲好党的二十大提出的对党和人民事业具有重大现实意义和深远历史意义的三件大事…… 长治医学院“星火 长治医学院公共卫生与预防医学系查看全文 >>

推荐内容

湖南科技大学举行“夜雨樱曲·樱花音乐节” 引领春日青春热潮

3月29日晚,湖南科技大学田径场灯光璀璨、人潮涌动,由校团委主办、学生会承办的“夜雨樱曲·樱花音乐节”如期举办,吸引了大…

4.18公共管理学院团委青工部开展“童心依旧”活动

(通讯员:刘羿男王君青)4月18日下午,我校公共管理学院的志愿者们走进了怡智家园,陪伴心智障儿童度过了一段充满欢笑与温暖…

经管院团委竞赛指导部举办“挑战杯”宣传动员大会

为提高学生的比赛参与度,激发学生创造灵感,2024年12月7日,经济管理学院团委竞赛指导部在博学楼b502举办了“挑战杯”宣传动员…

经管院成功举办2025年“挑战杯”专题讲座

为进一步激发我院学生对“挑战杯”竞赛的参与热情与创新活力,2024年12月7日,经济管理学院团委竞赛指导部特邀学院教授刘波老…

青春政好,与社同行:志愿服务暖人心

近日,“青春政好,与社同行”主题志愿活动在岳龙社区顺利开展。五名公共管理学院青年志愿者走进社区,用实际行动传递温暖与…

最新发布

过年计划之庙会
大年三十的晚上,我们一家人去逛庙会。逛庙会是中国特有的集吃喝玩乐于一体的传统民俗文化活动。逛庙会起源于寺庙周围,所以叫“庙”。又由于小商小贩们看到烧香拜佛者多,就在庙外面摆起了各种小摊来赚他们…
人间烟火处,年味渐浓时
从2020年开始,今年是留在自己家中而没有回老家过年的第4年啦。过去总纠结于十二点的倒计时,沉迷于满桌的年夜饭,忽然绽放的烟火,其乐融融的春晚,门上贴着的福字,觉得这才是年味,这才是过年。直到今年,…
过年计划之饺子
年味,即是年俗的味道,约定俗成。提起年味,那必然少不了年夜饭。北方的主食是饺子,而南方的主食是汤圆。“好吃不如饺子”,北方除夕夜吃饺子那是约定俗成的,而南方则是吃汤圆,寓意一年都团团圆圆。在潍…
过年计划之酥锅
酥锅是山东淄博传统名菜,多在传统春节期间食用。传说是清朝初年颜神镇一位叫苏小妹的妇女创始,故菜名为“苏锅”。又因此菜肴用醋较多,以肉鱼骨刺酥烂为主要特征,遂改名为“酥锅菜”。今年我第一次去到爷…
网络爬虫合法性的探究
【内容提要】本文通过分析近年来的诸多网络爬虫技术的民事权益纠纷和刑事案件,首先从网络爬虫的基本概念与具体应用场景入手简单介绍爬虫技术的基本内容,接着通过近年来的爬虫案例分析其中法律内涵,然后讲…
(反)爬虫技术原理与构建分析报告
导语:简要介绍通用爬虫技术的原理,聚焦于聚焦网络爬虫进行分析,网络爬行时为提高效率优化爬行策略、贴合网页更新频率、分析算法三个方面进行简单阐述方法。以python为例,向网页发起HTTP请求,简述python的网…
红色观影
红色观影,共庆华诞为庆祖国华诞,我支部联合光电与信息科学支部于10月3日共同举办“青春献礼,同心逐梦”的主题活动,为中华人民共和国献礼。党的红色资源承载着红色基因、红色传统、红色使命。无论岁月如何…
主题研学
在建党100周年的伟大历史节点,老党员以红色精神塑造先锋模范的榜样力量,以红色薪火点燃支部成员的理想信念,以丰富鲜活的红色故事为党史学习赋能添彩。作为新时代的青年,我们从他们手里接过时代的接力棒,…
爬虫应用场景分析
相信大家在春节的时候都有过抢火车票的经历,对一些抢票软件一定不会感到陌生。今天我们就来从技术的角度,来看看抢票软件背后的东西——爬虫。通俗点说,爬虫就是模拟人的行为去各个网站溜达,并把看到的信…
关于网络爬虫的相关案例分析
摘要:网络爬虫,又称网络蜘蛛或网络机器人,是一种自动抓取万维网资源的程序。目前已被广泛而成熟的应用于各种商业模式和应用场景,且在当下以及未来很长一段时间内都会是最为常用的网络数据获取手段。网络…