Scrapy Spider

爬虫 Spider 是一个定义如何抓取某个网站的类,包括如何执行抓取以及如何从其网页中提取结构化数据。换句话说,Spider是您定义用于为特定网站抓取和解析网页的自定义行为的位置。

1. Spider 工作流程

对于一个爬虫 Spider,工作流程如下:

  • 首先,生成用于抓取第一个 URL 的初始请求,然后指定处理响应的回调函数。第一个执行的请求,通过调用 start_requests() 方法生成,在里面指定 URL和解析函数。
  • 其次,在回调函数中,通常使用选择器来解析响应的网页内容,并返回提取的数据,保存在 Item 对象。
  • 最后,从爬虫返回的 Item 对象存储到数据库或者文件中。

整个流程循环执行,这个循环适用于任何种类的爬虫。

2. scrapy.spiders.Spider 类

scrapy.spiders.Spider 是最简单的爬虫,每个其他爬虫必须继承的爬虫基类。scrapy.spiders.Spider 不提供任何特殊功能,只是提供了一个默认start_requests()实现,并使用 parse 处理每个响应结果。以下是 scrapy.spiders.Spider 的一些常用的属性。

1)name

定义此爬虫名称的字符串。爬虫名称必须唯一。它是最重要的爬虫属性,是必需的。

2)allowed_domains

允许爬虫抓取域的列表,不在列表中的域不会被抓取。

3)start_urls

当爬虫起始抓取的网址列表。

4)settings

运行此爬虫的配置。这是一个 Settings实例。

5)custom_settings

运行此爬虫时的项目自定义配置。

6)start_requests()

此方法必须返回一个可迭代的第一个请求。有了start_requests(),就不需要写 start_urls,写了也没有用。

2. Spider 范例

例如,抓取多个 URL:

import scrapy

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

    def parse(self, response):
        self.logger.info('A response from %s just arrived!', response.url)

例如,从回调中再次产生多个抓取请求:

import scrapy

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

    def parse(self, response):
        for h3 in response.xpath('//h3').extract():
            yield {"title": h3}

        for url in response.xpath('//a/@href').extract():
            yield scrapy.Request(url, callback=self.parse)

你可以直接使用 start_requests(),而不是 start_urls:

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']

    def start_requests(self):
        yield scrapy.Request('http://www.example.com/1.html', self.parse)
        yield scrapy.Request('http://www.example.com/2.html', self.parse)
        yield scrapy.Request('http://www.example.com/3.html', self.parse)

    def parse(self, response):
        for h3 in response.xpath('//h3').extract():
            yield MyItem(title=h3)

        for url in response.xpath('//a/@href').extract():
            yield scrapy.Request(url, callback=self.parse)

3. Spider 参数

爬虫可以接收修改其行为的参数。爬虫参数常见用法是定义起始 URL 或某些限制。

Spider crawl 命令中可以使用该 -a 选项传递参数。例如:

scrapy crawl myspider -a category=electronics

爬虫可以在他们的init方法中访问参数:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.start_urls = ['http://www.example.com/categories/%s' % category]
        # ...

默认的init方法将获取任何爬虫参数,并将它们作为属性复制到爬虫。上面的例子也可以写成如下::

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'

    def start_requests(self):
        yield scrapy.Request('http://www.example.com/categories/%s' % self.category)

请记住,spider参数只是字符串。爬虫不会自己做任何解析。

下一章:Scrapy Spider 分类

爬虫 Spider 定义用于抓取网站和解析网页的类,我们一般使用通用爬虫 scrapy.spiders.Spider。Scrapy 还提供了一些有用的特定的爬虫 Spider,我们可以使用它们作为基类。这些特定爬虫是为一些常见的抓取案例提供方便的功能,例如根据某些规则查看网站上的所有链接,从站点地图抓取 或 解析XML/CSV Feed。