大家好,我是唐朝飞鱼,这是本站的第一篇技术教程,非常高兴能在这里给大家分享爬虫的相关知识,因为爬虫与反爬虫技术在实践中不断升级,因此本站也会不断更新教程。如果喜欢本站,请关注、分享本站,如果对您有所帮助,可以请我喝一杯咖啡,谢谢。

爬虫的前世今生

爬虫的前世

谷歌

1998年9月谷歌公司成立,1999年谷歌公司网站上线运营。
谷歌瞄准了互联网不断增长,信息进入爆炸时代。
如何帮助用户寻找有效信息,谷歌根据当前市场,提前瞄准市场的机遇,通过广告收入完成盈利。
谷歌使用的技术就是爬虫技术,从海量的互联网站搜索网站,并索引、根据用户喜爱程度进行排名及付费排名。

百度

2000年前,互联网上的资源信息较少,只有很少的搜狐、网易、中华网。
1999年身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,既然美国有谷歌,中国应该有百度。
百度取名来源于,辛弃疾的众里寻他千百度。
如何索引中国文字信息,并且快速、有效的提供给客户是那个时代百度的使命。

hao123

搜索引擎出现之前,在中国互联网上的IE默认主页就是hao123,hao123搜集整理了很多优秀的网站,并且按照功能分类,提供了互联网的入口。

爬虫的今生

旧时代逝去

2000年-2010年,网站蓬勃发展,搜索引擎也在快速壮大,如何获取好的排名,利用SEO结合搜索引擎的特点提升网站排名,让很多垃圾站点位居排名前列。
谷歌和百度都在优化算法,改变权重,期待较好的用户体验。然而公司终究是盈利的,广告排名竞价机制的高成本,让小企业难以为继。
高利润企业上竞价排名,低利润上SEO。中国互联网群魔乱舞,搜索到的信息终究不是自己想要的。
在今天人们已经有限度的使用搜索引擎,让搜索引擎服务商也是想尽了办法。
谷歌资助了很多开源项目,培养了很多优秀的人才。
百度则是利用搜索引擎的垄断地位,利用新闻、资讯、贴吧来圈住用户。
让人感到不满的是,手机的快速发展,电脑端在迅速消退,百度强制使用搜索,要下载APP,让一些人感到吃了苍蝇。
特别是莆田医院的事故,让人从内心抵制百度,这家企业是否严重的背离了价值观或者说根本就没有价值观。李彦宏就是个商人,百度就是依赖代理商高返点生存。
我讨厌谷歌和百度!讨厌搜索到的内容充满了虚假信息、病毒木马。

新时代

按需定制自己需要的信息,2009年中国出现了火车头采集器。这种采集让互联网抄袭成为了一种常态。前篇一律的文章和抄袭,互联网创新在减少。
网站技术不断发展,火车头采集器的局限性及数据挖掘不足,且不开源授权导致了部分人转学python。
2015年国内的技术大拿就开始研究python了,python像病毒一样得到了快速发展。数据挖掘的资深人士可以取得数据科学家的称号。

爬虫初级

网页基础分析、requests 请求、XPath 和正则解析、Ajax 分析、Selenium 模拟浏览器爬取、Scrapy 等知识点。
这个在一些大学和公开课上可以学到。

爬虫中级到高级

技术随着时代的发展,学会初级内容了,发现互联网上只能适用一些小的个人站点。
大的站点js加密、APP加密,根本无法爬取。高阶的教程万元起步,但是很难学会,或者是学会了遇到项目还是难。
一些新兴爬虫技术如异步爬虫、JavaScript 逆向、AST 技术、安卓逆向、Hook、智能解析、WebAssembly、大规模分布式、Docker、Kubernetes 等技术不断涌现。
当前时代在不断变更,技术更是日新月异。
培训内容却是泛滥不堪、同质化严重,知识陈旧,买到的书籍和案例根本无法实现,这极大地打击了初学者的自信心。

2022 年,工作空闲时,我就来整理下资料,按照体系的标准来分享。

Python3 网络爬虫学习教程提纲

爬虫法律法规学习

python爬虫初级教程

优秀的爬虫课程介绍

爬虫基础

python爬虫库

python提取网页数据

爬虫中级教程

爬虫与数据存储

Ajax数据爬取

异步爬虫

验证码识别

代理IP池

模拟登录

账号池

爬虫高级教程(web)

JavaScript动态渲染页面爬取

JavaScript逆向爬取

爬虫高级教程(app)

App数据爬取

安卓逆向

爬虫高级教程(综合)

scrape框架

云爬取

分布式爬虫