手把手教你使用Python操控手机微信app(最新教程)

/1 前言/

最近在做手机APP自动化测试,需要安appium,并配置环境变量,网上虽然有很多教程,但是随着版本的更新总有各种各样的坑,本文以亲身踏坑经历给大家详细介绍一下如何正确安装appium。

/2 第一步:安装Adroid SDK/

1、按照网上的教程,先下载Adroid SDK,网址为https://www.androiddevtools.cn/,如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

2、下载过程很顺利,如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

3、之后点击SDK Manager.exe文件,发现没反应。

手把手教你使用Python操控手机微信app(最新教程)

4、遂百度寻找答案,大多解决办法如下图所示:

手把手教你使用Python操控手机微信app(最新教程)

5、然而按照上述步骤并没有“神奇”的打开,这个问题让我纠结了一下午,最后我不得不跳出这个坑,选择安装Android Studio,因为在它里面也可以安装Adroid SDK,下载地址为http://www.android-studio.org/,整个下载过程很顺利,安装过程也很顺利,但是到最后弹出如下错误:

手把手教你使用Python操控手机微信app(最新教程)

6、原因是第一次安装,启动后,检测到电脑没有SDK。第一个解决办法是在安装的目录下找到:bin\idea.properties打开(用记事本)这个文件末尾添加一行disable.android.first.run=true,然后就可以打开Android Studio了,但是这个方法治标不治本,只能顺利打开这个软件,但是不能安装SDK。

7、第二个解决办法是,不翻墙的情况下,一般都是修改host文件:C:\Windows\System32\drivers\etc\hosts,如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

8、在最下面加如上两行命令,再打开Android Studio就能用了,在Android Studio软件下面这个界面可以下载安装所需的Android版本,这一步到此就大功告成了。

手把手教你使用Python操控手机微信app(最新教程)

/3 第二步:下载安装JAVA/

网址为https://www.oracle.com/technetwork/java/javase/downloads/index.html,我安装的是jdk-13.0.1,按照如下配置环境变量:

1、系统变量名:JAVA_HOME,变量值:C:\Program Files\Java\jdk-13.0.1;

2、系统变量名:CLASSPATH,变量值:%java_home%\lib。

但是网上很多教程CLASSPATH的变量值为:

手把手教你使用Python操控手机微信app(最新教程)

这是老版本的环境变量配置方式,新版本jdk-13.0.1文件夹下是没有dt.jar和tools.jar的,大家一定要注意。

/4 第三步:安装appium/

1、这一步比较简单,基本没有坑,直接在appium官网下载安装即可,打开后如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

2、点击Start Server v1.8.1,进入如下界面,如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

我已经配置好了参数,platformName为系统类型,deviceName为手机型号,appPackage和appActivity都代表手机app的标志,此处代表微信app,点击Start Session。

3、手机界面就显示出来了,已经打开了微信,到这一步appium安装及环境搭建已经全部完成,如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

/5 第四步:撸代码/

1、部分代码截图如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

2、执行此代码也可以如第三步一样打开微信登录界面,下面就可以像selenium操作网页一样用appium对微信app界面的元素执行点击、输入等操作了,如果不知道某个按键的元素,可以在appium客户端点击某按钮,然后它的元素信息就在右侧显示出来了,如下图所示。

手把手教你使用Python操控手机微信app(最新教程)

现在你就可以随心所欲的对微信进行自动化测试了。

/6 结语/

本文主要介绍了使用Python代码实现操控手机微信app,教程写的相对基础一些,但是部分细节方面还是节省了很多,大家在尝试的过程中肯定还会有各种问题。

另外本文涉及的Pyhton代码,我已经上传到Github了,感兴趣的小伙伴们,可以去看看,觉得不错,记得给个Star噢!

感谢大家的阅读!

——————— End ———————

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章:

手把手教你如何新建scrapy爬虫框架的第一个项目(上)

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

关于Scrapy爬虫项目运行和调试的小技巧(下篇)

今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目标信息。在Scrapy中,其提供了两种数据提取的方式,一种是Xpath选择器,一种是CSS选择器,这一讲我们先聚焦Xpath选择器,仍然是以伯乐在线网为示例网站。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

1、 打开网站,然后随机选择任意一篇文章进行查看,如下图所示。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

我们需要提取的信息主要有标题、日期、主题、评论数、正文等等。

2、接下来我们就可以开始写代码了,基础代码如下图所示,需要注意的是start_urls参数值改为了具体的URL,其他的代码未发生改变。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

3、回到原始网页,按下键盘的快捷键F12或者在网页上点击鼠标右键,然后选择“检查(N)”弹出网页的调试界面,如下图所示。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

4、点击下图中红色框框的小图标,可以实现网页数据和源码之间的交互,可以很方便的帮助我们定位标签。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

5、如下图所示,当我们选择上图中的小图标之后,再选择网页上的标题,尔后网页源码会自动跳转到我们定位的部分,可以看到标题在<h1>标签下。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

6、尔后我们就可以根据上图中的网页层次结构写出标题的Xpath表达式,这里先提供一种比较笨的方法,从头到尾进行罗列的写,“/html/body/div[1]/div[3]/div[1]/div[1]/h1”,有没有发现灰常的辛苦,像这种大标题信息还比较好提取一些,若是碰到犄角旮旯的信息,就比较难写表达式了,而且这种方式容易出错,效率还低。不过小伙伴们不用灰心,浏览器给我们提供了一个便捷的方式,让我们可以直接复制Xpath表达式。在标题处或者目标信息处右键,然后选择“Copy”,再选择“Copy Xpath”即可进行复制该标签的Xpath表达式,具体过程如下图所示。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

可以看到复制的Xpath表达式为“//*[@id=”post-113659″]/div[1]/h1”,其中id=”post-113659″是属于这篇文章的一个标识,如下图所示。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

通过该标识我们就可以很快的定位到标签,其与我们用笨方法手动写出来的Xpath表达式有时候并不是一致的。下面将两个Xpath表达式所匹配的内容分别进行输出。

7、将Xpath表达式写入Scrapy爬虫主体文件中,尔后Debug我们之前定义的main.py文件,将会得到下图的输出。可以看到selector1和selector2中的数据即是网页上的内容,而且内容是一致的。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

之后点击停止Debug模式,便可以退出Debug模式。

8、从上图中我们可以看到选择器将标签<h1></h1>也都取出来了,而我们想要取的内容仅仅是标签内部的数据,此时只需要使用在Xpath表达式后边加入text()函数,便可以将其中的数据进行取出。

在Scrapy中如何利用Xpath选择器提取目标信息(两种方式)

通过这篇文章,我们可以了解到尽管我们自己写出的Xpath表达式和浏览器给我们返回的Xpath表达式在写法上并不一致,但是程序运行之后,其返回的数据内容是一致的。换句话说,关于某个目标数据的Xpath表达式并不是唯一的,只要符合Xpath表达式语法,即便是写的很短,也是没问题的,你开心就好。此外在Scrapy爬虫框架中,text()函数常常与Xpath表达式运用在一块,用于提取节点中的数据内容。

——————— End ———————

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

关于Scrapy爬虫项目运行和调试的小技巧(下篇)

前几天给大家分享了关于Scrapy爬虫项目运行和调试的小技巧上篇,没来得及上车的小伙伴可以戳超链接看一下。今天小编继续沿着上篇的思路往下延伸,给大家分享更为实用的Scrapy项目调试技巧。

三、设置网站robots.txt规则为False

一般的,我们在运用Scrapy框架抓取数据之前,需要提前到settings.py文件中,将“ROBOTSTXT_OBEY = True”改为ROBOTSTXT_OBEY = False。

在未改动之后settings.py文件中默认爬虫是遵守网站的robots.txt规则的,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(下篇)

如果遵守robots.txt规则的话,那么爬取的结果会自动过滤掉很多我们想要的目标信息,因此有必要将该参数设置为False,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(下篇)

设置好robots.txt规则之后,我们便可以抓到更多网页的信息。

四、利用Scrapy shell进行调试

通常我们要运行Scrapy爬虫程序的时候会在命令行中输入“scrapy crawl crawler_name”,细心的小伙伴应该知道上篇文章中创建的main.py文件也是可以提高调试效率的,不过这两种方法都是需要从头到尾运行Scrapy爬虫项目,每次都需要请求一次URL,效率十分低。运行过Scrapy爬虫项目的小伙伴都知道Scrapy运行的时候相对较慢,有时候因为网速不稳定,根部就无法动弹。针对每次都需要运行Scrapy爬虫的问题,这里介绍Scrapy shell调试方法给大家,可以事半功倍噢。

Scrapy给我们提供了一种shell模式,让我们可以在shell脚本之下获取整个URL对应的网页源码。在命令行中进行运行,其语法命令是“scrapy shell URL”,URL是指你需要抓取的网页网址或者链接,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(下篇)

该命令代表的意思是对该URL进行调试,当命令执行之后,我们就已经获取到了该URL所对应的网页内容,之后我们就可以在该shell下进行调试,再也不用每次都执行Scrapy爬虫程序,发起URL请求了。

通过shell脚本这种方式可以极大的提高调试的效率,具体的调试方法同爬虫主体文件中的表达式语法一致。举个栗子,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(下篇)

将两个Xpath表达式所对应的选择器放到scrapy shell调试的脚本下,我们可以很清楚的看到提取的目标信息,而且省去了每次运行Scrapy爬虫程序的重复步骤,提高了开发效率。这种方式在Scrapy爬虫过程中十分常用,而且也十分的实用,希望小伙伴们都可以掌握,并且积极主动的为自己所用。

关于Scrapy爬虫项目运行和调试的部分小技巧先分享到这里,尤其是Debug调试和Scrapy shell调试极为常用,希望小伙伴们可以多多利用起来,让其为自己的项目服务,可以事半功倍噢~~

——————— End ———————

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

扫除运行Scrapy爬虫程序的bug之后,现在便可以开始进行编写爬虫逻辑了。在正式开始爬虫编写之前,在这里介绍四种小技巧,可以方便我们操纵和调试爬虫。

一、建立main.py文件,直接在Pycharm下进行调试

很多时候我们在使用Scrapy爬虫框架的时候,如果想运行Scrapy爬虫项目的话,一般都会想着去命令行中直接执行命令“scrapy crawl crawler_name”,其中crawler_name指的是爬虫的名字,在一开始创建Scrapy爬虫模板的时候就指定了的,而且在该爬虫项目中具有唯一性。但是每次跑到命令行下去执行,看交互的结果,有时候并不是很清晰,所以这里介绍一种方法,可以帮助大家提高开发效率,尤其是调试的时候更是显得方便。

在与爬虫项目的scrapy.cfg文件同级目录下建立一个main.py文件,用于控制整个爬虫项目的执行。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

在该文件夹中写入的代码见下图。其中execute函数是内嵌在scrapy中的,调用这个函数可以直接调用该Scrapy工程项目的爬虫脚本,这个函数的执行需要在爬虫项目的父目录下进行。而第7行代码的意思就是获取当前py文件的父目录,省去我们直接复制路径的精力和时间,同时也方便我们将该项目放到其他的平台上去运行,不会报路径的错误。execute函数里边的参数其实就是将Scrapy爬虫执行命令拆分,然后分别以一个字符的方式放到了一个数组中。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

之后我们直接运行这个main.py文件便可以调用Scrapy爬虫程序了。

二、多用Debug进行调试,提高开发速度

相信用过Pycharm的小伙伴都看到过Debug这个东东,它的英文意思就是“小虫子”,在Pycharm中的logo也是个小虫子,像是七星瓢虫一样,不过很多小伙伴可能还没有怎么用过,这里简单的介绍给大家,希望大家日后可以多多用到,对于项目的调试十分有帮助。

在进行Debug调试之前,我们需要在我们想要调试的代码左侧进行打断点,断点一般是红色的,打断点的方式很简单,只需要在代码的左侧点击一下左键即可,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

断点设置完成之后,便可以去main.py文件进行调试了。在main.py文件点击右键,然后选择“Debug ‘main’”,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

之后爬虫程序便开始进行调试,并且会返回一系列结果,如下图所示,可以方便的进行拖拽查看。同时也会在爬虫文件中以绿色的字体进行显示爬虫的结果,很漂亮。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

如果想退出或者停止该调试,则点击Pycharm上方选项卡的Run,然后点击“Stop ‘main’”即可,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

之后该爬虫程序就会退出调试,恢复正常的Pycharm界面,如下图所示。

关于Scrapy爬虫项目运行和调试的小技巧(上篇)

关于Scrapy爬虫项目运行和调试两个小技巧先分享到这里,下次将分享Scrapy爬虫项目中更为实用的两种调试方法,敬请期待~~

——————— End ———————

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

运行Scrapy程序时出现No module named win32api问题的解决思路和方法

有小伙伴在群里边反映说在使用Scrapy的时候,发现创建项目一切顺利,但是在执行Scrapy爬虫程序的时候却出现下列报错:“No module named win32api”,如下图所示,但是不知道怎么破,今天就这个问题讲解一下解决方案。

运行Scrapy程序时出现No module named win32api的解决思路和方法

出现这个报错是因为在Windows下我们缺少一个包,叫pypiwin32,这个报错一般只是在Windows下出现。很多小伙伴看到“No module named win32api”,于是乎便想着直接输入安装命令“pip install win32api”,结果系统给出下图提示:

运行Scrapy程序时出现No module named win32api的解决思路和方法

“Could not find aversion that satisfies the requirement win32api (from versions: ) No matchingdistribution found for win32api”。

运行Scrapy程序时出现No module named win32api的解决思路和方法

原来是没有找对安装包,正确的姿势是安装pypiwin32才是,输入安装命令“pip install pypiwin32”,结果如下图所示:

运行Scrapy程序时出现No module named win32api的解决思路和方法

小伙伴们又傻眼了,What???

运行Scrapy程序时出现No module named win32api的解决思路和方法

再尝试从豆瓣源上进行下载该库,结果如下图所示:

运行Scrapy程序时出现No module named win32api的解决思路和方法

还是报错,确实是好尴尬。

接下来就该求助Python包网站https://www.lfd.uci.edu/~gohlke/pythonlibs/,里边的Python包专门用于Windows下的安装的。在网页中找到pypiwin32安装包,然后选择本机Python对应版本和电脑系统位数的安装包,小编的电脑是64位的,而且Python版本是Python3.4,所以下载的包如下图红色框框所示。

运行Scrapy程序时出现No module named win32api的解决思路和方法

下载之后,将安装包放到site-packages文件夹下,如下图所示。

运行Scrapy程序时出现No module named win32api的解决思路和方法

之后执行安装命令“pip install pywin32-223.1-cp34-cp34m-win_amd64.whl”,如下图所示,显示“pywin32-223.1-cp34-cp34m-win_amd64.whlis not a supported wheel on this platform.”,无支持的平台。

运行Scrapy程序时出现No module named win32api的解决思路和方法

此时仍需要get一个小技巧,之前在Scrapy安装的问题总结一文中也有提及,这里再次借助这个方法进行实现,直接将.whl改为.zip,尔后进行解压即可,输入“pip list”进行查看。

运行Scrapy程序时出现No module named win32api的解决思路和方法

可以看到pywin32已经在里边了,并不是pypiwin32,怀着试一试的心态,再次执行爬虫命令,可以看到不再报这个错误了,竟然解决了这个问题。PS:因为爬虫程序的主题文件还没有任何的逻辑实现,所以返回的pipelines数据为空。

运行Scrapy程序时出现No module named win32api的解决思路和方法

最后安利一个小技巧。最近有的小伙伴在群里问,如果不小心没有记住Scrapy爬虫项目的名字,又不想去Pycharm中进行查看爬虫主体文件,该肿么办?这里介绍一个小技巧,可以帮助你找到爬虫的名字。直接在命令行中输入“scrapy list”即可看到爬虫的名字,如下图所示。

运行Scrapy程序时出现No module named win32api的解决思路和方法

到这里,关于“No module namedwin32api”的报错问题已经得到了解决,下次小伙伴们可以直接输入安装命令“pip install pywin32”即可,如果有报错的话,可以再尝试文中的解决问题的思路和方法。

运行Scrapy程序时出现No module named win32api的解决思路和方法

不过全文中的解决问题的思路和方法,小伙伴们日后都可以借鉴一下,希望对的大家的学习有帮助。

——————— End ———————

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

前几天小编带大家学会了如何新建scrapy爬虫框架的第一个项目(上),今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,代表通过Scrapy中自带的basic模板进行创建Scrapy项目,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

根据提示,该模板创建的位置为article.spiders.jobbole,此时再次输入tree /f命令可以查看到除了之前创建Scrapy爬虫项目的基础文件之外,在spiders文件夹下确实是多了一个jobbole.py文件,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

当然了,爬虫模板不一定非得用Scrapy爬虫项目自带的模板,也可以自定义的进行创建,但是基本上Scrapy提供的模板是足够使用的了。

接下来,将整个爬虫项目导入到Pycharm中去,点击左上方“file”à“open”,找到爬虫项目创建的文件夹,点击确认即可。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

如果在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话,则先选中spiders文件夹,尔后右键,点击“Synchronize spider”,代表与spiders文件夹进行同步的意思,尔后便可以看到jobbole.py就会被加载出来。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

点击jobbole.py文件进行查看内容,如下图所示。可以看到该文件已经默认的填充了部分Python代码,其实是从源模板中进行复制创建的。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

可以看到该文件中有当前Scrapy爬虫项目的名字name,Scrapy爬虫项目所允许的域名范围allowed_domains,以及Scrapy爬虫项目的起始URL,即start_urls。

接下来最后检查一下该项目的Python解释器,点击Pycharm的setting,然后输入“interpreter”,找到解释器所在的位置,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

如果“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境,则点击“Project Interpreter”的右侧的设置按钮,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

然后点击“Add local”,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

找到该项目对应的虚拟环境Python解释器,进行添加即可,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

至此,Scrapy爬虫虚拟环境创建、Scrapy爬虫项目的创建以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成,接下来我们要开始写入爬虫逻辑,以及数据提取等,敬请期待~~

——————— End ———————

往期精彩文章推荐:

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

在公众号后台回复下列关键词可以免费获取相应的学习资料:

Python、网络爬虫 、书籍、数据分析、机器学习、数据结构、

大数据、服务器、Spark、Redis、C++、C、php、

mysql、java、Android、面试题、课堂、其他

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助。

1、Scrapy爬虫框架

Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。

Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下图所示。

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

Scrapy爬虫框架

2、由上图可知Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎),Scheduler(调度器),Downloader(下载器),Spiders(蜘蛛),Item Pipeline(项目管道)。爬取过程是Scrapy引擎发送请求,之后调度器把初始URL交给下载器,然后下载器向服务器发送服务请求,得到响应后将下载的网页内容交与蜘蛛来处理,尔后蜘蛛会对网页进行详细的解析。蜘蛛分析的结果有两种:一种是得到新的URL,之后再次请求调度器,开始进行新一轮的爬取,不断的重复上述过程;另一种是得到所需的数据,之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理,最后由Pipeline输出到文件中,或者存入数据库等。

3、这五大组件及其中间件的功能如下:

1) Scrapy引擎:控制整个系统的数据处理流程,触发事务处理流程,负责串联各个模块

2) Scheduler(调度器):维护待爬取的URL队列,当接受引擎发送的请求时,会从待爬取的URL队列中取出下一个URL返回给调度器。

3) Downloader(下载器):向该网络服务器发送下载页面的请求,用于下载网页内容,并将网页内容交与蜘蛛去处理。

4) Spiders(蜘蛛):制定要爬取的网站地址,选择所需数据内容,定义域名过滤规则和网页的解析规则等。

5) Item Pipeline(项目管道):处理由蜘蛛从网页中抽取的数据,主要任务是清洗、验证、过滤、去重和存储数据等。

6) 中间件(Middlewares):中间件是处于Scrapy引擎和Scheduler,Downloader,Spiders之间的构件,主要是处理它们之间的请求及响应。

Scrapy爬虫框架可以很方便的完成网上数据的采集工作,简单轻巧,使用起来非常方便。

4、 基于Scrapy的网络爬虫设计与实现

在了解Scrapy爬虫原理及框架的基础上,本节简要介绍Scrapy爬虫框架的数据采集过程。

4.1 建立爬虫项目文件

基于scrapy爬虫框架,只需在命令行中输入“scrapy startproject article”命令,之后一个名为article的爬虫项目将自动创建。首先进入到article文件夹下,输入命令“cd article”,之后通过“dir”查看目录,也可以通过“tree /f”生成文件目录的树形结构,如下图所示,可以很清晰的看到Scrapy创建命令生成的文件。

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

爬虫项目目录结构

顶层的article文件夹是项目名,第二层中包含的是一个与项目名同名的文件夹article和一个文件scrapy.cfg,这个与项目同名的文件夹article是一个模块,所有的项目代码都在这个模块内添加,而scrapy.cfg文件是整个Scrapy项目的配置文件。第三层中有5个文件和一个文件夹,其中__init__.py是个空文件,作用是将其上级目录变成一个模块;items.py是定义储对象的文件,决定爬取哪些项目;middlewares.py文件是中间件,一般不用进行修改,主要负责相关组件之间的请求与响应;pipelines.py是管道文件,决定爬取后的数据如何进行处理和存储;settings.py是项目的设置文件,设置项目管道数据的处理方法、爬虫频率、表名等;spiders文件夹中放置的是爬虫主体文件(用于实现爬虫逻辑)和一个__init__.py空文件。

4.2 之后开始进行网页结构与数据分析、修改Items.py文件、编写hangyunSpider.py文件、修改pipelines.py文件、修改settings.py文件,这些步骤的具体操作后期会文章专门展开,在此不再赘述。

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

4.3 执行爬虫程序

修改上述四个文件之后,在Windows命令符窗口中输入cmd 命令进入到爬虫所在的路径,并执行“scrapy crawl article”命令,这样就可以运行爬虫程序了,最后保存数据到本地磁盘上。

5、 结束语

随着互联网信息的与日俱增,利用网络爬虫工具来获取所需信息必有用武之地。使用开源的Scrapy爬虫框架,不仅可以实现对web上信息的高效、准确、自动的获取,还利于研究人员对采集到的数据进行后续的挖掘分析。

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在windows下如何新建爬虫虚拟环境和进行scrapy安装

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

1、关于虚拟环境的创建可以参考之前发布的两篇博文,在Windows下如何创建指定的虚拟环境和在Windows下如何创建虚拟环境(默认情况下)。下面在指定的文件夹下,直接先创建环境,在命令行输入环境创建命令“virtualenv –python=C:\Python34\python.exe scrapy_demo”,指定Python的版本和路径,以及虚拟环境的名字scrapy_demo,其中虚拟环境可以自己进行修改,这里命名为scrapy_demo。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

2、尔后进入到scrapy_demo文件夹下,找到Scripts文件夹,输入activate.bat以激活虚拟环境,步骤如下图所示。之后可以看到scrapy_demo被括号括起来了,说明进入了环境,在命令行中输入python,可以看到直接弹出Python3的环境。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

3、新建完虚拟环境之后,接下来就开始安装Scrapy,输入安装命令“pip install Scrapy”或者“pip install -i https://pypi.douban.com/simple/ Scrapy”,后面这个命令是通过豆瓣源镜像进行下载,速度会快很多,而且较为稳定,建议使用该方法进行安装,Python中的其他库也建议用该命令进行安装,十分的方便快捷。输入命令之后,等待Scrapy的安装,如下图所示。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

4、可以看到Scrapy的安装速度非常快,因为我们使用了镜像进行下载。不过稍等片刻之后可能会碰到timeout的问题,这是由于Scrapy安装的过程中需要很多依赖包,导致下载过程中会遇到网络延时的问题,此时只需要重新输入安装命令进行安装即可。除了timeout的问题之外,可能还会碰到下图这个问题。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

5、这个问题的出现是因为缺乏Twisted依赖包,此时通过“pip install twisted”可能有问题,这里给大家介绍一个非常实用的Python包网站,里边的Python包专门用于Windows下的安装的。在网页中找到Twisted安装包,然后选择本机Python对应版本和电脑系统位数的安装包,小编的电脑是64位的,而且Python版本是Python3.4,所以下载的包如下图红色框框所示。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

6、下载完成之后,直接进入到下载的目录,由此进入命令行窗口,输入安装命令“pip install Twisted-18.7.0-cp34-cp34m-win_amd64.whl”,一般是可以安装上的,但是有时候会出现下面的错误提示“Twisted-18.7.0-cp34-cp34m-win_amd64.whl is not a supported wheel on this platform.”,表示该平台不支持这个安装包,如下图所示。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

7、此时不用慌,在这里小编给大家介绍一个小技巧,专门用来应对这样的问题的。进入到Twisted-18.7.0-cp34-cp34m-win_amd64.whl安装包目录下,一般下载之后将其放到虚拟环境的site-packages文件夹下面,尔后将后缀.whl更改为.zip,有木有觉得很熟悉?对,它就是个压缩文件,现在将压缩包里边的内容全部解压到当前文件夹,如下图所示。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

8、之后在虚拟环境下输入pip list命令查看安装包,可以看到Twisted安装包已经在里边了,如下图所示。第一个pip list命令的时候尚未解压Twisted安装包,此时并没有Twisted库;第二个pip list命令是在Twisted安装包解压之后执行的,可以看到Twisted库已经在里边了。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

9、尔后我们再次输入Scrapy的安装命令,“pip install -i https://pypi.douban.com/simple/ Scrapy”,等待安装完成,此时可以看到没有任何的报错了。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

10、最后通过pip list查看Scrapy是否安装成功,可以看到Scrapy已经在list之内了,如下图所示。

在windows下如何新建爬虫虚拟环境和进行scrapy安装

至此,Scrapy的安装已经顺利完成。文中记录的部分bug解决方法是很多小伙伴们都会遇到的问题,希望大家日后在安装Scrapy的时候有章可循。最后,祝大家安装Scrapy一切顺利~~

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

这几天,很多朋友在群里问Scrapy安装的问题,其实问题方面都差不多,今天小编给大家整理一下Scrapy的安装教程,希望日后其他的小伙伴在安装的时候不再六神无主,具体的教程如下。

Scrapy是Python网络爬虫的一个框架,十分好用,深得大家的青睐,其工作原理,在在此就不赘述了。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

1、正常我们在Python库的时候,只需要利用cmd命令打开命令行窗口,然后输入pip install 库,就可以正常安装了,但是在安装Scrapy的时候,输入pip install scrapy之后往往会碰到下图的问题。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

2、这个问题的出现,是因为我们缺乏libxml2安装包。现在只要我们安装这个包之后,就可以顺利安装scrapy了。给大家安利一个福利,介绍给大家一个非常实用的Python包网站,这个网站很神奇,里边的Python包专门用于Windows下的安装的,如下图所示。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

3、之后在该网站上查找lxml,也可以输入Ctrl+f进行查找,找到之后如下图所示。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

4、点击“lxml”,找到lxml安装包,如下图所示。找到对应自己Python版本的lxml安装包,小编的电脑是64位的,而且Python版本是Python3.4,所以找到下图红色框框的安装包,点击即可进行下载。同理,其他的Python3.5、Python3.6、Python3.7的安装包根据自己的情况一一对应即可。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

5、然后去下载的目录,将lxml进行安装即可,输入安装命令pip install lxml-4.2.1-cp34-cp34m-win_amd64.whl即可。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

6、lxml-4.2.1-cp34-cp34m-win_amd64.whl环境安装完成之后,再重新输入pip install scrapy即可顺利安装了,不会再报错了,如下图所示。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

7、输入pip list可以查看已经安装的scrapy包,如下图所示。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

8、之后我们就可以正常使用scrapy了,可以创建scrapy项目等等。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

9、还有一些小伙伴遇到的问题是这个:

raise distutils.errors.DistutilsPlatformError(err)

distutils.errors.DistutilsPlatformError: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: Download the Visual C++ Build Tools (standalone C++ compiler, libraries and tools)

—————————————-

Command “python setup.py egg_info” failed with error code 1

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

这个是因为本机缺乏visual C++的安装环境,此时只需要进入http://landinghub.visualstudio.com/visual-cpp-build-tools 这个网站,下载对应电脑版本的visual C++环境,进行安装之后即可解决问题。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

这个安装包比较大,等scrapy安装好之后再删除即可。

10、还有的小伙伴可能会遇到下面的错误提示“Twisted-18.7.0-cp34-cp34m-win_amd64.whl is not a supported wheel on this platform.”,表示该平台不支持这个安装包,如下图所示。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

之前的lxml安装包不是直接安装就成功了吗?为何这个安装包会出现这个问题呢?此时,首先需要检查该安装包的Python版本和电脑位数是否和本机都对应上,如果确认没有问题,再继续往下看。

在这里小编给大家介绍一个小技巧,专门用来应对这样的问题的。进入到所下载的安装包,这里以Twisted-18.7.0-cp34-cp34m-win_amd64.whl安装包为例,进入到下载目录下,一般下载之后将其放到虚拟环境的site-packages文件夹下面,尔后将后缀.whl更改为.zip,将后缀.whl更改为.zip,将后缀.whl更改为.zip,重要的事情说三遍,有木有觉得很熟悉?对,它就是个压缩文件,现在将压缩包里边的内容全部解压到当前文件夹,如下图所示。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

之后在虚拟环境下输入pip list命令查看安装包,可以看到Twisted安装包已经在里边了,如下图所示。第一个pip list命令的时候尚未解压Twisted安装包,此时并没有Twisted库;第二个pip list命令是在Twisted安装包解压之后执行的,可以看到Twisted库已经在里边了。

Windows下安装Scrapy方法及常见安装问题总结——Scrapy安装教程

Twisted库安装好之后,再安装其他的库,如Scrapy、Pandas等就如鱼得水了。

这里列出了几个Scrapy安装过程中常见的问题及其解决方法,希望对大家日后安装Scrapy的时候有所帮助,可能每个人的平台和环境都不太一样,肯定会碰到其他的安装问题,欢迎大家一起学习交流~~

看完本文有收获?请转发分享给更多的人

Python爬虫与数据挖掘

入群请在微信后台回复【入群】