爬虫:python爬虫学习路径


参考原文:https://www.zhihu.com/question/20899988

知乎大神总结的python爬虫之路,原文是一系列有趣的图片,以下是我总结的文字版:

  1. 为什么学爬虫:获取有趣的或有用的数据;为什么用python:酷,效率高.

  2. 学习爬虫前你需要先了解:python的list和dict,因为爬下来的数据需要使用python的数据框架来存储,队列(list)和字典(dict)是基础.

  3. 另外你还需要了解Numpy和pandas.

  4. 学习python的数据结构强烈推荐《利用python进行数据分析》这本书.

  5. 学完这些你接下来需要学习爬虫的一些python包:urllib,urllib2,requests,bs4,scrapy,pyspider.

  6. 强烈建议用requests和bs4:前者负责连接网站处理http协议,后者负责将网页变成结构化数据,方便抓取.

  7. 偶尔你会遇到一些用bs4也很难爬取得内容,这是你需要学习一点re.

  8. 掌握以上这些你就可以开始爬取一些静态网站啦,如糗事百科,天涯社区等.

  9. 过段时间你已经不满足于爬静态网站啦,这时可以开始学习爬取js加载的动态网站了.

  10. 这时你会面临两个选择:你可以学习selenium或者ghost这种包来控制浏览器;或者借助chrome开发者工具及其他具有抓包功能的浏览器来查看网页加载时的交互,然后用requests进行表单的提交并爬取js,建议选后者.

  11. 学到这里你已经可以爬取mtime时光网的电影评分数据以及知乎了.

  12. 你以为这就完了?爬到的数据你需要存储不?你需要恶补python数据库连接知识,爬取得数据你需要展现是不?你需要接触下django,flask等web开发框架.

  13. 还有呢?多线程爬虫提高爬取效率,代理IP池与网站斗智斗勇,scrapy,pyspider框架部署,每一个都够学上好久的.