scrapy是一款由python开发的高效、高层次的屏幕抓取和网络抓取框架,用于从网站中提取结构化数据。scrapy之所以吸引人,是因为它是一个框架,用户可以根据自己的需求进行灵活的调整。scrapy的应用范围很广,包括数据挖掘、监控和自动化测试。
1、关于虚拟环境的创建,可以参考之前发布的两篇博文,介绍了在Windows下如何创建指定的虚拟环境以及如何创建默认的虚拟环境。接下来,在指定的文件夹下创建环境,命令行为“virtualenv –python=C:Python34python.exe scrapy_demo”,指定了Python的版本和路径,并将虚拟环境命名为scrapy_demo。虚拟环境名称可以根据需要进行修改,这里我们使用scrapy_demo。
2、随后进入scrapy_demo文件夹下的Scripts文件夹,执行activate.bat以激活虚拟环境,如下图所示。激活后,scrapy_demo会显示在括号中,表示已进入该环境。在命令行中输入python,即可看到Python3环境的提示。
3、创建完虚拟环境后,接下来安装Scrapy。输入安装命令“pip install Scrapy”或“pip install -i https://www.php.cn/link/58ea66374b3faa6082d480f1214c2ad2 Scrapy”,后者通过豆瓣源镜像下载,速度更快且稳定,推荐使用此方法安装。其他Python库也建议使用此命令进行安装,非常便捷。执行命令后,等待Scrapy安装完成,如下图所示。
4、由于使用了镜像下载,Scrapy的安装速度很快。但在稍等片刻后,可能会遇到timeout问题,这是因为Scrapy安装需要多个依赖包,导致网络延时。此时,只需重新输入安装命令即可。此外,还可能遇到如下图所示的问题。
5、此问题是因为缺少Twisted依赖包。尝试通过“pip install twisted”安装可能会失败。这里推荐一个实用的Python包网站https://www.lfd.uci.edu/~gohlke/pythonlibs/,专门为Windows提供安装包。在网站上找到Twisted安装包,选择与本机Python版本和系统位数匹配的包。小编的电脑是64位,Python版本为Python3.4,因此选择如下图红框所示的包。
6、下载完成后,进入下载目录,在命令行窗口中输入安装命令“pip install Twisted-18.7.0-cp34-cp34m-win_amd64.whl”。通常情况下可以安装成功,但有时会出现错误提示“Twisted-18.7.0-cp34-cp34m-win_amd64.whl is not a supported wheel on this platform.”,表示该平台不支持此安装包,如下图所示。
7、遇到这种情况无需担心,这里有一个小技巧来解决。进入Twisted-18.7.0-cp34-cp34m-win_amd64.whl安装包目录,将后缀.whl更改为.zip。这是一个压缩文件,将其解压到当前文件夹,如下图所示。
8、然后在虚拟环境中输入pip list命令查看安装包。第一次执行时,Twisted尚未解压,因此列表中没有Twisted库;第二次执行是在解压Twisted后,可以看到Twisted库已添加,如下图所示。
9、接下来再次输入Scrapy的安装命令“pip install -i https://www.php.cn/link/58ea66374b3faa6082d480f1214c2ad2 Scrapy”,等待安装完成。此时不会再有错误提示。
10、最后,通过pip list查看Scrapy是否安装成功,可以看到Scrapy已在列表中,如下图所示。
至此,Scrapy的安装已经顺利完成。文中记录的部分bug解决方法是许多用户可能会遇到的问题,希望大家在安装Scrapy时能有所参考。祝大家安装Scrapy一切顺利~~
——————— End ———————