Scrapy爬虫框架的使用

冯奎
2019-04-06 20:21:08
Python
python 爬虫

Scrapy的安装

打开命令行窗口，确认Python已安装，如果没有安装，请按照前一篇文章进行安装：

python --version

确认pip的安装安装：

pip --version

接着我们使用pip命令来进行安装Scrapy：

pip install Scrapy

冯奎博客在进行isnstall安装时，有时会遇到如下错误（win10 64位 Python3.7）：

building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

解决办法：进入 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted中对应版本的whl文件（如我的Twisted-19.7.0-cp37-cp37m-win_amd64.whl），cp后面是python版本，amd64代表64位。进入下载文件目录，运行命令：

pip install C:\Twisted-19.7.0-cp37-cp37m-win_amd64.whl

安装完成后，再次运行 pip install Scrapy 就可以安装成功了

如果再Linux中使用 Scrapy 时，注意找到 python 安装目录中的 Scrapy，并创建软链

[root@bogon ~]# ln -s /usr/local/webserver/python3/bin/scrapy /usr/bin/scrapy

可用的工具命令

在Scrapy中，我们可以通过运行命令来获取关于每个命令的详细内容：

scrapy <command> -h

也可以查看所有可用的命令：

scrapy -h

Scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行(针对项目(Project-specific)的命令)，另外一种则不需要(全局命令)。全局命令在项目中运行时的表现可能会与在非项目中运行有些许差别(因为可能会使用项目的设定)。

全局命令:

startproject
settings
runspider
shell
fetch
view
version

项目(Project-only)命令:

crawl
check
list
edit
parse
genspider
deploy
bench

Scrapy常用命令行

创建一个新的项目

一般来说，使用 scrapy 工具的第一件事就是创建您的Scrapy项目：

scrapy startproject myproject

该命令将会在 myproject 目录中创建一个Scrapy项目。（注：一个工程中可以存在多个spider, 但是名字必须唯一）接下来，进入到项目目录中:

cd myproject

这时候您就可以使用 scrapy 命令来管理和控制您的项目了。

控制项目

您可以在您的项目中使用 scrapy 工具来对其进行控制和管理。创建一个新的spider：

scrapy genspider mydomain mydomain.com

mydomain为spider文件名，mydomain.com为爬取网站域名

运行 spider 爬虫文件：

scrapy crawl <spider>

检查spider文件有无语法错误：

scrapy check

列出spider路径下的spider文件：

scrapy list

显示scrapy版本：

scrapy version [-v]

本文为冯奎原创文章，转载无需和我联系，但请注明来自冯奎博客fengkui.net

上一篇：如何在win系统下使用Linux命令
下一篇：使用PHP编写爬虫

请先登录后发表评论

latest comments
总共0条评论

友情链接

菜鸟教程 Laravel 学院君 Laravel 社区 Thinkphp 官网白俊遥博客赵华伟自媒体博客唯品秀吴佳博客轩陌博客简忆博客张峰博客续断的博客更多

Scrapy爬虫框架的使用

Scrapy的安装

可用的工具命令

Scrapy常用命令行

创建一个新的项目

控制项目

热门标签

最新评论

友情链接

Scrapy爬虫框架的使用

Scrapy的安装

可用的工具命令

Scrapy常用命令行

创建一个新的项目

控制项目

热门标签

置顶推荐

最新评论

友情链接