成都Python爬虫培训教程-如果利用Python爬取B站上千万数据?

[复制链接]

211

主题

211

帖子

346

积分

中级会员

Rank: 3Rank: 3

积分
346
分享到:
发表于 2018-6-11 13:36:26 | 显示全部楼层 |阅读模式
  成都Python爬虫培训教程-如果利用Python爬取B站上千万数据?
  说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热门的UP主都是是哪些。
 成都python爬虫培训​
  要点:
  - 爬取10万用户数据
  - 数据存储
  - 数据词云分析
  1.准备阶段
  写代码前先构思思路:既然我要爬取用户关注的用户,那我需要存储用户之间的关系,确定谁是主用户,谁是follower。
  存储关系使用数据库最方便,也有利于后期的数据分析,我选择sqlite数据库,因为Python自带sqlite,sqlite在Python中使用起来也非常方便。
  数据库中需要2个表,一个表存储用户的相互关注信息,另一个表存储用户的基本信息,在B站的用户体系中,一个用户的mid号是唯一的。
  然后我还需要一个列表来存储所以已经爬取的用户,防止重复爬取,毕竟用户之间相互关注的现象也是存在的,列表中存用户的mid号就可以了。
  2.新建数据库
  先写建数据库的代码,数据库中放一个用户表,一个关系表:
  3.爬取前5页的用户数据
  我需要找到B站用户的关注列表的json接口,很快就找到了
  其中vimd=后的参数就是用户的mid号
  pn=1指用户的关注的第一面用户,一面显示20个用户
  因为B站的隐私设置,一个人只能爬取其他人的前5页关注,共100人。
  整个爬取页面的思路比较简单,首先设置header,用requests库进行API请求,获得关注的用户数据列表。
  我们爬取前5页,每一页的数据进行简单的处理,然后转为字典数据进行获取mid,uname,sign3个维度的数据,最后save()函数存入db.
  4.关于怎么快速学python,有什么方法,这个问题,想必大家都已经心中有数了,打算深入了解这个行业的朋友,可以咨询成都Python培训的客服老师!

使用高级回帖 (可批量传图、插入视频等)快速回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则   Ctrl + Enter 快速发布  

发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
快速回复 返回顶部 返回列表