打开命令行窗口,确认Python
已安装,如果没有安装,请按照前一篇文章进行安装:
python --version
确认pip
的安装安装:
pip --version
接着我们使用pip
命令来进行安装Scrapy:
pip install Scrapy
在进行isnstall安装时,有时会遇到如下错误(win10 64位 Python3.7):
building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
解决办法: 进入 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted中对应版本的whl文件(如我的Twisted-19.7.0-cp37-cp37m-win_amd64.whl),cp后面是python版本,amd64代表64位。进入下载文件目录,运行命令:
pip install C:\Twisted-19.7.0-cp37-cp37m-win_amd64.whl
安装完成后,再次运行 pip install Scrapy
就可以安装成功了
如果再Linux中使用 Scrapy 时,注意找到 python 安装目录中的 Scrapy,并创建软链
[root@bogon ~]# ln -s /usr/local/webserver/python3/bin/scrapy /usr/bin/scrapy
在Scrapy
中,我们可以通过运行命令来获取关于每个命令的详细内容:
scrapy <command> -h
也可以查看所有可用的命令:
scrapy -h
Scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行(针对项目(Project-specific)的命令),另外一种则不需要(全局命令)。全局命令在项目中运行时的表现可能会与在非项目中运行有些许差别(因为可能会使用项目的设定)。
全局命令:
项目(Project-only)命令:
一般来说,使用 scrapy
工具的第一件事就是创建您的Scrapy项目:
scrapy startproject myproject
该命令将会在 myproject 目录中创建一个Scrapy项目。 (注:一个工程中可以存在多个spider, 但是名字必须唯一) 接下来,进入到项目目录中:
cd myproject
这时候您就可以使用 scrapy
命令来管理和控制您的项目了。
您可以在您的项目中使用 scrapy
工具来对其进行控制和管理。
创建一个新的spider:
scrapy genspider mydomain mydomain.com
mydomain为spider文件名,mydomain.com为爬取网站域名
运行 spider 爬虫文件:
scrapy crawl <spider>
检查spider文件有无语法错误:
scrapy check
列出spider路径下的spider文件:
scrapy list
显示scrapy
版本:
scrapy version [-v]
本文为冯奎原创文章,转载无需和我联系,但请注明来自冯奎博客fengkui.net
最新评论