我爬取了37000条球迷评论,知道了这场比赛的重要信息

这两天看恰好有nba决赛,是球迷的你肯定不会错过的,更何况今年的西部决赛是火箭对战勇士,今年的火箭是很强的,因为没到关键时候总会有人站出来。当然,勇士也是挺强的,毕竟不能小看库里杜兰特等四大巨头。

阅读更多

老司机带你用python来爬取妹子图

我前几篇文章都是说一些python爬虫库的用法,还没有说怎样利用好这些知识玩一些好玩的东西。那我今天带大家玩好玩又刺激的,嘻嘻!对了,requests库和正则表达式很重要的,一定要学会!一定要学会!!一定要学会!!!我现在的爬虫基本都是用这两样东西来爬的。所以学不学你看着办吧。

阅读更多

教你用python登陆豆瓣并爬取影评

在上篇文章爬取豆瓣电影top250后,想想既然爬了电影,干脆就连影评也爬了,这样可以看看人们评价的电影,再加上刚出不久的移动迷官3好像挺热的,干脆就爬他吧,爬完看看好不好看!

阅读更多

反爬虫与反反爬虫

喜欢爬虫的伙伴都知道,在爬网站的内容的时候并不是一爬就可以了,有时候就会遇到一些网站的反爬虫,折回让你爬不到数据,给你返回一些404,403或者500的状态码,这有时候会让人苦不堪言,就如我昨天发的爬网易云音乐评论,在你爬的数据较多时,网站认为你是一个机器,就不让你爬了,网易云就给我返回了一个

阅读更多

搭建自己的代理ip池

会搭建一个属于自己的代理ip池

阅读更多

利用python爬取豆瓣电影Top250,并把数据放入MySQL数据库

学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取。

阅读更多

python爬虫常用库之requests详解

创作这个库的原因就是想让python开发者更加容易地发起请求,处理请求。里面还有个名字:HTTP for Humans,顾名思义,就是用来请求http的。想看源代码的可以在github上搜索他的名字就可以看到了。

阅读更多

python爬虫常用库之BeautifulSoup详解

经过了前面几篇文章的学习,估计你已经会爬不少中小型网站了。但是有人说,前面的正则很难唉,学不好。正则的确很难,有人说过:如果一个问题用正则解决,那么就变成了两个问题。所以说学不会是很正常的,不怕,除了正则,我们还可以用另外一个强大的库来解析html。所以,今天的主题就是来学习这个强大的库

阅读更多

利用python爬取网易云音乐评论,并把数据存入mysql

在简单学习了python爬虫后,又想继续折腾,进而找到了这个网易云音乐,因为本人平时就是用它听的歌,也喜欢看歌里的评论,所以就爬网易云音乐评论吧,那么开始吧!

阅读更多

说说数据库

爬了数据,只能放在记事本上?小的数据还是可以的,但是当你遇到较多的数据,放在记事本上就不是很好了,这时就需要用到数据库来存储了,那我们今天的主题就是入门数据库,在入门数据库之前,我首先介绍下什么是数据库。

阅读更多