Logistic's Blog

生命不息,折腾不止!

Python Crawler Note

文章最后修改于:2020-2-8 06:46:27

一、Python爬虫简介

网络爬虫的定义:

  1. 模拟浏览器自动的浏览网页
  2. 自动批量采集我们需要的网络资源
  3. 一段程序(一个脚本)

开发爬虫的步骤:

  1. 目标数据(网站、页面)
  2. 分析数据加载流程(分析目标数据所对应的url,要使用正则表达式)—— 难点
  3. 下载数据
  4. 清洗,处理数据
  5. 数据持久化(写入到文件里)

二、入门:从网站爬取小说

doupo_crawler.py

三、入门:制作网易云音乐下载器

cloudmusic_crawler.py

四、实例:批量下载抖音视频

1、功能简介:批量爬取任意用户“作品”与“喜欢”里的视频,无水印。

2、项目地址:python-spider/douyin_Github

3、使用方法:

[1] 获取目标用户的UID:

Step1:打开抖音APP获取目标用户的分享短链接

  • 自己:打开我的个人主页,点右上角的“…”——个人名片——右上角的转发箭头——复制链接
  • 关注的用户:打开目标用户的个人主页,点右上角的“…”——右上角的转发箭头——复制链接

Step2:将上一步获取到的短链接复制到浏览器打开,从原始链接中获取目标用户的UID(即 share/user/后面的数字)

举例:

  • 短链接: https://v.douyin.com/bB4kuM/

  • 原始链接: https://www.iesdouyin.com/share/user/97682711563?u_code=kak72ilk&sec_uid=MS4wLjABAAAAIJrPdreQJViuB5hb0K6slORPBCK6GqdatAKPVDeSwdI&utm_campaign=client_share&app=aweme&utm_medium=ios&tt_from=copy&utm_source=copy

  • UID: 97682711563

[2] 配置基本的Python环境,运行 douyin.py脚本,按要求填入信息即可。

《Python Crawler Note》

4、注意事项:

爬取后的结果可能存在无效视频

[1] 查找并批量删除无效视频:

  • 在文件夹内按照文件大小排序,删除0kb的无效文件

[2] 产生原因及解决办法:

  • 原因1:未关闭私密权限,就爬取自己收藏的视频(打开我的个人主页,点右上角的“…”——设置——隐私设置——关闭“私密账号”)

  • 原因2:爬取过于频繁,被服务器限制了(等待一会儿再去爬取)

  • 原因3:收藏的视频已被原作者删除(这个没招)

五、参考资料

[1] Python新手强烈推荐教程:爬虫入门_Bilibili
[2] 使用Python突破某易云音乐下载限制,实现歌曲免费听_Bilibili
[3] Windows下配置Chrome WebDriver_CSDN
[4] 网易云音乐mp3外链、真实地址下载方法_cnblogs
[5] Python3网络爬虫实战_Github

点赞

发表评论

电子邮件地址不会被公开。

EA PLAYER &

历史记录 [ 注意:部分数据仅限于当前浏览器 ]清空

      00:00/00:00