爬虫 - 冯奎博客 — 坚持比努力更可怕！

xpath相关语法使用

冯奎
2019-06-19 22:42:00
Python
php 爬虫

XPath 是一门在 XML 文档中查找信息的语言。使用路径表达式来选取 XML 文档中的节点或者节点集。使用XPATH有如下几种方法定位元素（相比CSS选择器，方法稍微多一点）1、通过绝对路径定位元素（不推荐！），2、通过相对路径定位元素，索引定位元素及属性值定位元素，使用任意值来匹配属性及元素。。。

阅读全文

使用Querylist动态抓取腾讯新闻

冯奎
2019-05-18 21:27:59
PHP
php 爬虫

在上一章中我们介绍了Querylist的简单使用，这一章中，我们配合PhantomJS来动态抓取腾讯新闻数据。 PhantomJS 插件使用PhantomJS采集JavaScript动态渲染的页面。使用PhantomJS采集JavaScript动态渲染的页面。这个包基于`jonnyw/phpphantomjs`包。PhantomJS: http://phantomjs.or...

阅读全文

PHP爬虫框架Querylist介绍

冯奎
2019-05-12 20:10:36
PHP
php 爬虫

介绍一个爬虫框架Querylist的使用。 QueryList 是什么`QueryList`是一套用于内容采集的PHP工具，它使用更加现代化的开发思想，语法简洁、优雅，可扩展性强。相比传统的使用晦涩的正则表达式来做采集，QueryList使用了更加强大而优雅的CSS选择器来做采集，大大降低了PHP做采集的门槛，同时也让采集代码易读易维护，让你从此告别晦涩难懂且不易维护的正则表达式

阅读全文

文件下载保留原路径（PHP）

冯奎
2019-04-29 21:06:28
PHP
php 函数爬虫

上一篇文章我们介绍Python保留原路径下载，这一篇文章我们来介绍一下使用php,如何保留原路径进行下载远程文件。我们使用`parse_url`函数对文件路径进行解析处理```phpparse_url($url,PHP_URL_PATH)```使用`Curl`或`readfile`进行远程文件请求，获取文件：```php//获取远程文件所采用的方法if(...

阅读全文

图片下载保留原路径（Python）

冯奎
2019-04-24 20:28:10
Python
python 爬虫

再我们编写爬虫的使用，经常会遇到图片文件；对于这些图片有时我们需要保存原始路径进行下载；那么使用Python有什么办法进行来下载吗？下面我们就来使用Python进行保存原路径下载对于图片的请求，我们使用`requests`进行请求；首先我们先对`pip`包进行更新：```pythonpython m pip install upgrade pip```接着来...

阅读全文

使用PHP编写爬虫

冯奎
2019-04-17 21:18:25
PHP
php 爬虫

说到爬虫，大家的第一印象就会想到Python，但是Python并不是所有人都会的，那么是否可以使用其他的语言来编写爬虫呢？当然是可以的，下面介绍一下如何使用PHP编写爬虫。获取页面html内容 1、使用函数 `file_get_contents` 把整个文件读入一个字符串中。```phpfile_get_contents(path,include_path,con...

阅读全文

Scrapy爬虫框架的使用

冯奎
2019-04-06 20:21:08
Python
python 爬虫

Scrapy的安装打开命令行窗口，确认`Python`已安装，如果没有安装，请按照前一篇文章进行安装：```pythonpython version```确认`pip`的安装安装：```Pythonpip version```接着我们使用`pip`命令来进行安装Scrapy：```Pythonpip install Scrapy``` 可用...

阅读全文