我和Python:

很早就听说Python了,只不过刚开始没意识到它的强大。后来听说Python爬虫挺有意思,而且适合搞爬虫!我就在去年参加完信息学奥林匹克竞赛(参赛语言C++)后趁着有点C++的基础搞一搞Python,对着Python的菜鸟教程装上解释器就开始对着爬虫教程搞了起来,当时爬的是一个新闻站,几天下来就能学会爬很多东西了,很有成就感。本文着重整理爬虫方向的资料。

学习线路很简单,明确!如果有编程的底子,那就可以很快上手了,因为Python确实语法有没且简单!

Python基础的学习资料:

这本PDF电子书比较适合新手

https://lookcos.cn/?p=78

菜鸟Python3教程  http://www.runoob.com/python3/python3-tutorial.html

廖雪峰的Python教程 https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

安装Python的视频教程  引用廖老师的视频教程

运行Python视频教程

如果有编程基础:

首先要熟悉Python3 编程环境的一个安装,建议不要使用Pycharm等大型IDE,使用Python自带的就很好!

能够写出HelloWord!之后,就可以参照着上面的菜鸟教程,看看写写Python基础了!

能够大致记住这些基础之后(不要求熟练掌握),比如说 判断可以用 if,迭代可以用for,然后就去学爬虫的用到的库,在学习的过程中回过头来查阅Python3的文档,也就是上面我发的文档!

Python进阶之路:

熟悉Python基础之后就可以直接上手跟着教程写爬虫了,这里推荐一个爬虫视频教程,通过爬取新闻网站着重讲了requests库和BeautifulSoup4库,以及爬虫相关的多种概念等等,很适合进阶!

Python网络爬虫实战 视频教程  http://study.163.com/course/introduction/1003285002.htm  

配合这两个文档:

BeautifulSoup4https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

Requests  http://docs.python-requests.org/zh_CN/latest/

这两个文档就是教程中所讲的库的文档,同时也是以后我们写爬虫常查阅的文档。

听教程的技巧:我们学习Python,而Python是一门高级编程语言,不必刨根问底,前期学习只需要明白你所不懂得地方有什么用,知道怎么用就行了!听课听到不懂的东西就去我说的文档查一下,涉及基础就查基础,涉及库中函数的操作就去查库文档。还可以百度一下,是在不行去群里与我交流,然后知道有什么用你跟着写即可!不用担心,以后都会懂的!越用越懂!

高级一点的库:

大家都知道BeautifulSoup4是一种纯Python的库,适合新手使用,功能也强大,但是它有着明显的缺点——速度慢!

这个时候我们就要介绍一种库了,它是由C语言编写的,Python调用,所以执行效率很高!

我们用lxml去解析html速度就会很快,下面发一下一些相关的资料:

官方的文档 https://lxml.de/

学习lxml解析html两小时后总结  https://www.jianshu.com/p/2ae6d51522c3

python3解析库lxml https://www.imooc.com/article/38066

XPath 教程 http://www.w3school.com.cn/xpath/index.asp

Python爬虫大神之路:

我觉得这个标题有点夸张,因为大神都是自己写库给别人用的。我们这里不讨论这种情况!

想成为爬虫大神,当然是要学习或者说精通爬虫框架啦!scrapy非常的强大,推荐此!

 

 

标签: none

分类: 所有文章

添加新评论