拥有爬虫标签的文章

使用Querylist动态抓取腾讯新闻

在上一章中我们介绍了Querylist的简单使用,这一章中,我们配合PhantomJS来动态抓取腾讯新闻数据。 PhantomJS 插件使用PhantomJS采集JavaScript动态渲染的页面。使用PhantomJS采集JavaScript动态渲染的页面。这个包基于`jonnyw/phpphantomjs`包。PhantomJS: http://phantomjs.or...
阅读全文

PHP爬虫框架Querylist介绍

介绍一个爬虫框架Querylist的使用。 QueryList 是什么`QueryList`是一套用于内容采集的PHP工具,它使用更加现代化的开发思想,语法简洁、优雅,可扩展性强。相比传统的使用晦涩的正则表达式来做采集,QueryList使用了更加强大而优雅的CSS选择器来做采集,大大降低了PHP做采集的门槛,同时也让采集代码易读易维护,让你从此告别晦涩难懂且不易维护的正则表达式
阅读全文

文件下载保留原路径(PHP)

上一篇文章我们介绍Python保留原路径下载,这一篇文章我们来介绍一下使用php,如何保留原路径进行下载远程文件。我们使用`parse_url`函数对文件路径进行解析处理```phpparse_url($url,PHP_URL_PATH)```使用`Curl`或`readfile`进行远程文件请求,获取文件:```php//获取远程文件所采用的方法if(...
阅读全文

图片下载保留原路径(Python)

再我们编写爬虫的使用,经常会遇到图片文件;对于这些图片有时我们需要保存原始路径进行下载;那么使用Python有什么办法进行来下载吗?下面我们就来使用Python进行保存原路径下载对于图片的请求,我们使用`requests`进行请求;首先我们先对`pip`包进行更新:```pythonpython m pip install upgrade pip```接着来...
阅读全文

使用PHP编写爬虫

说到爬虫,大家的第一印象就会想到Python,但是Python并不是所有人都会的,那么是否可以使用其他的语言来编写爬虫呢?当然是可以的,下面介绍一下如何使用PHP编写爬虫。 获取页面html内容 1、使用函数 `file_get_contents` 把整个文件读入一个字符串中。```phpfile_get_contents(path,include_path,con...
阅读全文

Scrapy爬虫框架的使用

Scrapy的安装打开命令行窗口,确认`Python`已安装,如果没有安装,请按照前一篇文章进行安装:```pythonpython version```确认`pip`的安装安装:```Pythonpip version```接着我们使用`pip`命令来进行安装Scrapy:```Pythonpip install Scrapy``` 可用...
阅读全文