利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看。今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将其进行可视化,具体的教程如下。

爬取微信好友信息,不得不提及这个itchat库,简直太神奇了,通过它访问微信好友基本信息可谓如鱼得水。下面的代码是获取微信好友的省位信息:

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

程序运行之后,需要扫描进行授权登录,之后在Pycharm的控制台上会出现如下图的红色提示,这些红色的字体并不是我们通常遇到的Python程序运行报错,属于正常的状态,不用太理会。大意是提示你要用手机扫描下载过来的二维码;确认授权;加载通讯录好友信息;登录成功。之后就会将程序中所需要的内容打印出来,如下图所示:

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

将打印出来的内容放到记事本中,如下图所示:

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

可以看到小编的大部分好友都是在中国,而且辽宁的朋友最多,其次是广东省和湖南省的好友居多,可以知道小编是和这三个地方结缘了。下图中展示的省位好友数量并没有那么多,除了青海之外,全部都是国外的城市或国家名称,说明小编的青海朋友并不多,希望可以多交几位青海省的朋友。另外经过统计,小编还发现自己并没有云南、海南和甘肃的朋友,希望可以和这几个地方的伙伴们做个朋友 ~

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

下图展示的是对好友的地图可视化,具体的实现可以参考这篇文章:Python大佬批量爬取中国院士信息,告诉你哪个地方人杰地灵,在此就不再赘述。

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

可以看到颜色较深的省位是辽宁省、广东省和湖南省,说明这三个省位小编的好友较多。

接下来继续写代码,抓取微信好友所在的城市,如下图所示:

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

这里代码和程序运行的截图都放到一起了,在此对于红色字体就不再赘述了。就打印出来的信息可以看到,小编的微信好友中大连的朋友最多,其实是广东省的朋友,如广州和深圳,再就是湖南省的朋友了,如衡阳和长沙。

将微信好友城市分布拷贝到记事本中,可以更加清楚的看到好友的分布,如下图所示:

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

还有部分城市如下图所示:

利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

还有一些地区就不再多粘贴出来了。另外,感兴趣的小伙伴可以将城市统计汇总,之后将其做个地图可视化,可以尝试一下噢~~

^_^小编最后祝大家周末愉快^_^

——————- End ——————-

往期精彩文章推荐:

手把手用Python教你如何发现隐藏wifi

手把手教你用Python做个可视化的“剪刀石头布”小游戏

手把手用Python网络爬虫带你爬取全国著名高校附近酒店评论

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

利用Python网络爬虫抓取微信好友的签名及其可视化展示

前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化,感兴趣的小伙伴可以点击进去看看详情,内容方面不是很难,即使你是小白,也可以通过代码进行实现抓取。今天,小编继续给大家分享如何利用Python网络爬虫抓取微信好友的签名及其可视化展示,具体的教程如下所示。

1、代码实现还是基于itchat库,关于这个神奇的库,在之前的文章中有提及, 再次不多赘述。下图的代码的功能是实现签名的抓取和数据提取。之后将抓取到的数据写入到本地文件中去。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

2、程序运行完成之后,得到了一个文本文件,内容如下图所示。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

第一行中最开始的那条签名是小编自己的,博学,审问,慎思,明辨,笃行。之后的签名是根据微信通讯录上的名片列序来进行呈现的。如果好友有微信签名的话,都会抓取下来,如果没有签名的话,则忽略。

3、随机的验证一下微信好友的签名,再此以小编对象的微信签名为例,她的签名是“得之安然、失之坦然、处之泰然、顺其自然、争其必然!”,之后在TXT文件中进行搜索,可以看到其签名确实是存在里边的,如下图所示。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

4、接下来就要对这个文件文件进行词云可视化呈现了。继续写代码,如下图所示。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

代码的关键部分是需要底图和字体,底图小编用的是路飞,注意要使用白色底图的图片,不然词云可视化的时候效果不佳。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

字体的话需要自己提前去下载,对于可视化呈现也可以参考这篇文章:如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

5、运行程序之后,仍然需要进行扫码授权,程序运行如下图所示。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

红色代码部分,上一篇文章已经详细讲解过了,再次不多赘述了。

6、之后我们可以看到漂亮的词云图就展示在我们面前了,如下图所示。

利用Python网络爬虫抓取微信好友的签名及其可视化展示

根据词云的可视化效果来看,关键词:人生、努力、时间、我们、哈哈哈……等词语,出现的频率较高。可以感受得到小编的微信好友的签名基本上都突显出积极乐观,珍惜时间,努力奋斗的特征。

劝君吸取金缕衣,劝君惜取少年时。花开堪折直须折,莫待无花空折枝。祝福大家周末愉快,人生苦短,我用Python~~

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化展示

大前天我们通过Python网络爬虫对朋友圈的数据进行了抓取,感兴趣的朋友可以点击进行查看,如何利用Python网络爬虫抓取微信朋友圈的动态(上)和如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)。今天小编带大家通过词云去将其进行可视化,具体的教程如下。

1、在Python中做词云,需要用到wordcloud库和jieba分词库,没有安装的伙伴可以直接pip安装即可。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

2、之后你可能还需要一些字体,如simhei.ttf等,这些字体在网上都有,可以直接进行下载,在做词云的时候会用得到,如下图所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

3、在items.py的同级目录下建立analyse.py文件,定义analyse_words方法,用于实现词云可视化,jieba.cut用于得到分词结果,具体的代码实现,如下图所示。因为得到的moment.json数据是以JSON格式存储的,所以需要在该文件中导入JSON模块对其进行解析。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

这个地方需要注意一下,由于我们的memoent.json文件中是中文字符,如果在open()函数中没有加入encoding=’utf-8’的话会导致gbk编码错误,记得将编码加上即可。

4、之后运行程序,得到keys.png图片文件,程序运行的效果如下图所示。可以看到keys.png已经在items.py目录下了。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

5、双击keys.png,如下图所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

6、不得不承认,这个词云图片内容确实丰富,不过也十分的丑。小编利用wordart(一个词云网站)将朋友圈数据进行更加美化的可视化。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

7、比方说用动物的图案进行可视化,效果图如下图所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

8、如果直接将数据进行导入的话,wordart会直接将整段话进行可视化,这样显得十分冗余,看上去也不太友好,因此还需要通过Python对数据进行分频统计,之后再导入到wordart中就可以看到想要的效果了。首先,我们需要对json文件进行处理一下,将文本全部导出来,形成一个moment.txt文件。内容如下图所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

9、编写代码,将文本进行分词,代码实现如下所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

10、程序运行完成之后,得到的moment_outputs.txt文件,内容如下图所示,可以很清楚的看到分词情况。红色部分是程序运行的过程。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

11、继续编写代码,将词频进行统计汇总,代码实现如下图所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

12、程序运行之后,得到一个txt和Excel文件,里边是关于词频统计的信息,如下图所示。红色部分是程序运行的结果,并没有报错。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

13、将这些关键字导入到wordart中进行可视化,如下图所示。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

14、设置一下图案、字体、排版、颜色等等,就可以生成绚丽的词云图了,下图是汪星人词云图。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

15、下图是小云朵词云图,可以给视觉带来一场饕餮盛宴。

如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化

小伙伴们,你们有没有觉得很神奇呢?喜欢的话欢迎收藏和转载噢~~

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

如何利用Python网络爬虫爬取微信朋友圈动态–附代码(下)

前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入。

一、代码实现

1、修改Scrapy项目中的items.py文件。我们需要获取的数据是朋友圈和发布日期,因此在这里定义好日期和动态两个属性,如下图所示。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

2、修改实现爬虫逻辑的主文件moment.py,首先要导入模块,尤其是要主要将items.py中的WeixinMomentItem类导入进来,这点要特别小心别被遗漏了。之后修改start_requests方法,具体的代码实现如下图。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

3、修改parse方法,对导航数据包进行解析,代码实现稍微复杂一些,如下图所示。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

  • l需要注意的是从网页中获取的response是bytes类型,需要显示的转为str类型才可以进行解析,否则会报错。
  • l在POST请求的限定下,需要构造参数,需要特别注意的是参数中的年、月和索引都需要是字符串类型的,否则服务器会返回400状态码,表示请求参数错误,导致程序运行的时候报错。
  • l在请求参数还需要加入请求头,尤其是Referer(反盗链)务必要加上,否则在重定向的时候找不到网页入口,导致报错。
  • l上述的代码构造方式并不是唯一的写法,也可以是其他的。

4、定义parse_moment函数,来抽取朋友圈数据,返回的数据以JSON加载的,用JSON去提取数据,具体的代码实现如下图所示。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

5、在setting.py文件中将ITEM_PIPELINES取消注释,表示数据通过该管道进行处理。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

6、之后就可以在命令行中进行程序运行了,在命令行中输入scrapy crawl moment -o moment.json,之后可以得到朋友圈的数据,在控制台上输出的信息如下图所示。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

7、尔后我们得到一个moment.json文件,里面存储的是我们朋友圈数据,如下图所示。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

8、嗯,你确实没有看错,里边得到的数据确实让人看不懂,但是这个并不是乱码,而是编码的问题。解决这个问题的方式是将原来的moment.json文件删除,之后重新在命令行中输入下面的命令:scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8,此时可以看到编码问题已经解决了,如下图所示。

如何利用Python网络爬虫爬取微信朋友圈动态——附代码(下)

下一篇文章,小编带大家将抓取到的朋友圈数据进行可视化展示,敬请关注~~

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门。不过不要慌,小编在网上找到了第三方工具,它可以将朋友圈进行导出,之后便可以像我们正常爬虫网页一样进行抓取信息了。

【出书啦】就提供了这样一种服务,支持朋友圈导出,并排版生成微信书。本文的主要参考资料来源于这篇博文:https://www.cnblogs.com/sheng-jie/p/7776495.html ,感谢大佬提供的接口和思路。具体的教程如下。

一、获取朋友圈数据入口

1、关注公众号【出书啦】

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

2、之后在主页中点击【创作书籍】–>【微信书】。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

3、点击【开始制作】–>【添加随机分配的出书啦小编为好友即可】,长按二维码之后便可以进行添加好友了。

4、之后耐心等待微信书制作,待完成之后,会收到小编发送的消息提醒,如下图所示。

至此,我们已经将微信朋友圈的数据入口搞定了,并且获取了外链。

确保朋友圈设置为【全部开放】,默认就是全部开放,如果不知道怎么设置的话,请自行百度吧。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

5、点击该外链,之后进入网页,需要使用微信扫码授权登录。

6、扫码授权之后,就可以进入到微信书网页版了,如下图所示。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

7、接下来我们就可以正常的写爬虫程序进行抓取信息了。在这里,小编采用的是Scrapy爬虫框架,Python用的是3版本,集成开发环境用的是Pycharm。下图是微信书的首页,图片是小编自己自定义的。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

二、创建爬虫项目

1、确保您的电脑上已经安装好了Scrapy。之后选定一个文件夹,在该文件夹下进入命令行,输入执行命令:

scrapy startproject weixin_moment

,等待生成Scrapy爬虫项目。

2、在命令行中输入cd weixin_moment,进入创建的weixin_moment目录。之后输入命令:

scrapy genspider ‘moment’ ‘chushu.la’

,创建朋友圈爬虫,如下图所示。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

3、执行以上两步后的文件夹结构如下:

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

三、分析网页数据

1、进入微信书首页,按下F12,建议使用谷歌浏览器,审查元素,点击“Network”选项卡,然后勾选“Preserve log”,表示保存日志,如下图所示。可以看到主页的请求方式是get,返回的状态码是200,代表请求成功。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

2、点击“Response”(服务器响应),可以看到系统返回的数据是JSON格式的。说明我们之后在程序中需要对JSON格式的数据进行处理。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

3、点击微信书的“导航”窗口,可以看到数据是按月份进行加载的。当点击导航按钮,其加载对应月份的朋友圈数据。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

4、当点击【2014/04】月份,之后查看服务器响应数据,可以看到页面上显示的数据和服务器的响应是相对应的。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

5、查看请求方式,可以看到此时的请求方式变成了POST。细心的伙伴可以看到在点击“下个月”或者其他导航月份的时候,主页的URL是始终没有变化的,说明该网页是动态加载的。之后对比多个网页请求,我们可以看到在“Request Payload”下边的数据包参数不断的发生变化,如下图所示。

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

6、展开服务器响应的数据,将数据放到JSON在线解析器里,如下图所示:

如何利用Python网络爬虫抓取微信朋友圈的动态(上)

可以看到朋友圈的数据存储在paras /data节点下。

至此,网页分析和数据的来源都已经确定好了,接下来将写程序,进行数据抓取,敬请期待下篇文章~~