Scrapy爬虫框架的使用

Scrapy的安装

打开命令行窗口,确认Python已安装,如果没有安装,请按照前一篇文章进行安装:

python --version

确认pip的安装安装:

pip --version

接着我们使用pip命令来进行安装Scrapy:

pip install Scrapy

冯奎博客 在进行isnstall安装时,有时会遇到如下错误(win10 64位 Python3.7):

building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

解决办法: 进入 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted中对应版本的whl文件(如我的Twisted-19.7.0-cp37-cp37m-win_amd64.whl),cp后面是python版本,amd64代表64位。进入下载文件目录,运行命令:

pip install C:\Twisted-19.7.0-cp37-cp37m-win_amd64.whl

安装完成后,再次运行 pip install Scrapy 就可以安装成功了

如果再Linux中使用 Scrapy 时,注意找到 python 安装目录中的 Scrapy,并创建软链

[root@bogon ~]# ln -s /usr/local/webserver/python3/bin/scrapy /usr/bin/scrapy

可用的工具命令

Scrapy中,我们可以通过运行命令来获取关于每个命令的详细内容:

scrapy <command> -h

也可以查看所有可用的命令:

scrapy -h

Scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行(针对项目(Project-specific)的命令),另外一种则不需要(全局命令)。全局命令在项目中运行时的表现可能会与在非项目中运行有些许差别(因为可能会使用项目的设定)。

全局命令:

  • startproject
  • settings
  • runspider
  • shell
  • fetch
  • view
  • version

项目(Project-only)命令:

  • crawl
  • check
  • list
  • edit
  • parse
  • genspider
  • deploy
  • bench

Scrapy常用命令行

创建一个新的项目

一般来说,使用 scrapy 工具的第一件事就是创建您的Scrapy项目:

scrapy startproject myproject

该命令将会在 myproject 目录中创建一个Scrapy项目。 (注:一个工程中可以存在多个spider, 但是名字必须唯一) 接下来,进入到项目目录中:

cd myproject

这时候您就可以使用 scrapy 命令来管理和控制您的项目了。

控制项目

您可以在您的项目中使用 scrapy 工具来对其进行控制和管理。 创建一个新的spider:

scrapy genspider mydomain mydomain.com

mydomain为spider文件名,mydomain.com为爬取网站域名

运行 spider 爬虫文件:

scrapy crawl <spider>

检查spider文件有无语法错误:

scrapy check

列出spider路径下的spider文件:

scrapy list

显示scrapy版本:

scrapy version [-v]

冯奎博客
请先登录后发表评论
  • latest comments
  • 总共0条评论