成都Python爬虫培训教程-如果利用Python爬取B站上千万数据?

成都达内科技 · 发表于 2018-6-11 13:36:26

　　成都Python爬虫培训教程-如果利用Python爬取B站上千万数据?
　　说起热门的B站相信很多喜欢玩动漫的，看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了，为啥不用Python爬取B站中我关注的人，已经关注的人他们关注的人，看看全站里面热门的UP主都是是哪些。
　成都python爬虫培训
　　要点：
　　- 爬取10万用户数据
　　- 数据存储
　　- 数据词云分析
　　1.准备阶段
　　写代码前先构思思路：既然我要爬取用户关注的用户，那我需要存储用户之间的关系，确定谁是主用户，谁是follower。
　　存储关系使用数据库最方便，也有利于后期的数据分析，我选择sqlite数据库，因为Python自带sqlite，sqlite在Python中使用起来也非常方便。
　　数据库中需要2个表，一个表存储用户的相互关注信息，另一个表存储用户的基本信息，在B站的用户体系中，一个用户的mid号是唯一的。
　　然后我还需要一个列表来存储所以已经爬取的用户，防止重复爬取，毕竟用户之间相互关注的现象也是存在的，列表中存用户的mid号就可以了。
　　2.新建数据库
　　先写建数据库的代码，数据库中放一个用户表，一个关系表：
　　3.爬取前5页的用户数据
　　我需要找到B站用户的关注列表的json接口，很快就找到了
　　其中vimd=后的参数就是用户的mid号
　　pn=1指用户的关注的第一面用户,一面显示20个用户
　　因为B站的隐私设置，一个人只能爬取其他人的前5页关注，共100人。
　　整个爬取页面的思路比较简单，首先设置header,用requests库进行API请求，获得关注的用户数据列表。
　　我们爬取前5页，每一页的数据进行简单的处理，然后转为字典数据进行获取mid,uname,sign3个维度的数据，最后save()函数存入db.
　　4.关于怎么快速学python，有什么方法，这个问题，想必大家都已经心中有数了，打算深入了解这个行业的朋友，可以咨询成都Python培训的客服老师!

成都Python爬虫培训教程-如果利用Python爬取B站上千万数据?

使用高级回帖 (可批量传图、插入视频等)快速回复