40行代码教你利用Python网络爬虫批量抓取小视频

/1 前言/

还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉!

/2 整理思路/

这类网站一般大同小异,本文就以凤凰网新闻视频网站为例,采用倒推的方式,给大家介绍如何通过流量分析获得视频下载的url,进而批量下载。

/3 操作步骤/

/3.1 分析网站,找出网页变化规律/

1、首先找到网页,网页详情如下图所示。

2、该视频网站分为人物、娱乐、艺术等不同类型,本文以体育版块为例,下拉到底端,如下图所示。

3、根据上图的结果,我们可以发现该网站是动态网页,打开浏览器自带流量分析器,点击加载更多,找出网页变化规律,第一个就是,请求网址和返回结果如下图。标记处为页码,此时是第3页。

4、返回结果包含视频的title、网页url、guid(相当于每个视频的标志,后续有用)等信息,如下图所示。

5、每个网页里边包含24个视频,打印出来是这样的,如下图所示。

/3.2 寻找视频网页地址规律/

1、先打开流量分析器,播放视频进行抓包,找到几个mp2t文件,如下图所示。

2、它们的网址我依次找了出来,放到文本文件中存放起来,以发现它们之间的规律,如下图所示。

3、大家发现规律了吗?网址中的p26275262-102-9987636-172625参数就是视频的guid(上述已经得到),只有range_bytes参数是变化的,而且是从0到6767623,很显然这是视频的大小,而且视频是分段合成的。找到这些规律之后,接下来我们需要继续进行细挖视频地址的出处。

/3.3 寻找视频的下载原始地址/

1、先考虑一个问题,视频的地址是从哪来的呢?一般情况下,先在视频网页里看看有没有,如果没有,我们就在流量分析器里,沿着第一个分段视频往上找,肯定是有某个网址返回了这些信息,很快,我在1个vdn.apple.mpegurl文件里发现了下图这个。

2、太惊喜了,这不就是我们要找的信息么,再看看它的url参数,如下图所示。

3、上图参数看起来很多的样子,不过不用怕。还是利用老办法,先在网页里看看有没有,没有的话还在流量分析器里往上找,功夫不负有心人,我找到了下图这个。

4、它的url如下图所示。

5、仔细找找规律,我们发现唯一需要变化的就是每个视频的guid了,这个第一步已经得到了。另外,返回结果包含了上述除了vkey的所有参数,而且这个参数最长,那该怎么办呢?

6、不要慌,万一这个参数没有用呢,先把vkey去掉试一试。果不其然,果然没有什么用,现在整个过程已经捋顺了,现在可以撸代码了。

/3.4 代码实现/

1、在代码里边,设置多线程下载,如下图所示,其中页码可以自己进行修改哈。

2、解析返回参数,json格式的,使用json库进行处理,如下图所示。通过解析,我们可以得到每个视频的title、网页url、和guid。

3、模拟请求,获得除Vkey外的参数,如下图所示。

4、利用上一步中的参数,进行模拟请求,获得包含分段视频的信息,如下图所示。

5、将分段视频合并,保存在1个视频文件,并以title命名,如下图所示。

/3.5 效果呈现/

1、当程序运行之后,我们便可以看到网页中的视频哗啦哗啦的在本地文件夹中进行呈现,如下图所示。接下来,妈妈再也不用担心我喜欢的视频找不着了,真香!

当然了,如果想更加直观的话,可以在代码中加入维测信息,这个大家可以自己手动设置一下。

/4 总结/

本文主要基于Python网络爬虫,利用40行代码,针对小视频网页,进行批量获取网页视频到本地。方法简单易行,而且行之有效,欢迎大家踊跃尝试。如果想获取本文代码,请zhi姐访问https://github.com/cassieeric/python_crawler/tree/master/little_video_crawler,即可获取代码链接,如果觉得不差,记得给个star噢。

——————- End ——————-

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

用Python模拟技巧带你实现自动抽屉登录&自动点赞

/1 前言/

嘿,各位小伙伴们晚上好呀,今天小编又给大家带来干货内容啦,今天带来的是,如何自动登录抽屉,并且点赞!

原计划是不打算使用selenium的,但是因为要涉及点赞,所以免不了登录。但事实证明,我又被啪啪打脸了,抽屉的登录是真的难,各种参数把我干懵了。无赖之下,我还是捡起了selenium,难逃真香定律呐,哈哈哈。

好了,废话不多说,直接进入正题吧!

/2 准备工作/

万年不变的套装…

Chromedriver:浏览器驱动,可以理解为一个没有界面的chrome浏览器。

Selenium:用于模拟人对浏览器进行点击、输出、拖拽等操作,就相当于是个人在使用浏览器,也常常用来应付反爬虫措施。

/3 抽屉点赞机制/

我们都知道,要想点赞,就需要知道是谁点的,登录以后需要等保存状态,一般有cookie,seeeion,token三种形式,那么抽屉的是怎么玩的呢?我们来图解一下,如下图所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

通过上图,我们一目了然,能看出来,只要我们登录了之后,拿到了cookie,以后就不用selenium啦!所以,我们这里将登录获取cookie和点赞进行分离,分开进行,逻辑也十分的清晰,而且一点儿也不耽误事情。

/4 登录预热/

抽屉url:https://dig.chouti.com/,直接放这了。

一个热榜资讯社区,大概长这个样子,如下图所示,内容还是挺不错的。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

在上图我们可以看到右上方的登录按钮,在左侧可以看到需要点赞的图标以及点赞数,评论数和收藏数等等,接下来我们先进行第一步自动登录。

/5 开始登录/

点击右上方的登录按钮,页面将会进行跳转,进入到一个登录界面,如下图所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

弹出登录模态对话框,接下来我们使用selenium来开始盘它了,直接上代码,如下所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

注意事项1:介于篇幅和排版原因,这里只是给出了一个代码截图,完整代码我在文末留了github链接,回头可以直接去down即可。

因为此登录是模态对话框,所以用selenium是不能点击登录按钮的,需要执行js代码,如下图所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

Cookie是怎么玩的呢,我他把写在了本地,但是测试发现selenium获取cookie不全,所以我们依然使用js获取。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

注意事项2抽屉如果登录多了,可能会让输入滑块验证码之类的,本文这部分并未有进行处理。

/6 自动登录示例效果图/

自动登录的效果图如下图所示:

用Python模拟技巧带你实现自动抽屉登录&自动点赞

/7 开始自动点赞/

  在上面的工作中,我们已经成功的拿到登录返回的cookie了,接下来我们就开始自动点赞,而且有了之前的基础,下面的事情我们就好办多了。

我们首先需要看一下,点赞请求的是哪个接口。我们清空一下浏览器中的NetWork日志,点击第一个文章的赞按钮,如下图所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

我们可以看到,这个接口发的是post请求,但是发送的是什么数据呢?我们下滑继续一探究竟。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

可以看到在Form Data里边,有一个linkid:29213534,是一串长数字,这个是什么呢?马上揭晓!

使用浏览器与网页的交互功能,我们点击对应的文章,那么很快我们就可以锁定这个linkid,如下图所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

相信大家肯定都看得出来,其实post的那一串数字其实就是文章ID。换句话说,我们只需要把这个ID都获取到,放到post构造数据里边,程序一运行,就可以实现点赞啦!

/8 代码实现/

下面是部分代码截图,完整代码在文末,如下图所示。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

注:这里只是测试了前10个文章。

/9 抽屉自动点赞效果图/

为了方便大家查看,我做了一个简单的小动态图给大家,详情如下。

用Python模拟技巧带你实现自动抽屉登录&自动点赞

如果动图看的不是很清晰的话,不用慌,小编已经把原图放到github上了,大家可以去访问看看,很清晰,如下图所示。github链接在文末,欢迎大家来戳!

用Python模拟技巧带你实现自动抽屉登录&自动点赞

/10 抽屉自动点赞效果图/

代码详情我已经上传到github这里了:https://github.com/cassieeric/python_crawler/tree/master/autoVote。如果觉得还不错,记得给个star噢,感想小伙伴们的支持!

——————- End ——————-

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他