Python网络爬虫真实的URL看来真不能光凭着XHR找

大家好,我是我是皮皮。

一、前言

前几天在Python最强王者交流群有个叫【Rr】的粉丝问了一个关于Python网络爬虫问题,这里拿出来给大家分享下,一起学习。

乍一看,这个是乱码,后来一想,这个也许不是真实的url,大概率是找错了。因为原网页是下图这样的,人畜无害。

二、解决过程

一开始以为是预览的问题,有时候在浏览器中预览状态确实会有乱码,看得并不完整,于是乎先让其看看response一栏。

事实上,response一栏显示的也是一样的,和预览一模一样,这就很尴尬了。

不过不慌,想到这里,大概率可以确定是url没有找对,得重新去寻找,让粉丝发来url,之后真相大白。这里【德善堂小儿推拿-瑜亮老师】大佬发来贺电,如下图所示:

看来真不能光凭着xhr找,之后根据线索就得到对应的url了。

真实的url在下图:

后来【Rr】顺利解析了自己想要的字段。

看上去虽然有乱码,但是转码之后就一切正常了,完美解决!

三、总结

大家好,我是皮皮。这篇文章基于粉丝提问,针对Python网络爬虫中的url寻找的问题,给出了具体说明和演示,顺利地帮助粉丝解决了问题。下次遇到类似的问题,看来真不能光凭着xhr找,有时候真实的url就藏在其他地方。

最后感谢粉丝【Rr】提问,感谢【德善堂小儿推拿-瑜亮老师】、【dcpeng】、【果冻】、【蓬山已无青鸟】大佬给予的支持和积极参与学习。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注