Scrapy Feed exports

Feed导出是一种存储从站点获取的数据的方法,即生成 “导出文件”

序列化格式

使用多个序列化格式和存储后端,Feed Export使用Item导出器并生成一个包含scraped项目的feed。

下表显示了支持的格式:

序号 格式和说明
1 JSON FEED_FORMAT是 _json_ 使用的导出器是 _类scrapy.exporters.JsonItemExporter_
2 JSON lines FEED_FROMAT是 _jsonlines_ 使用的导出器是 _类scrapy.exporters.JsonLinesItemExporter_
3 CSV FEED_FORMAT是 _CSV_ 使用的导出器是 _类scrapy.exporters.CsvItemExporter_
4 XML FEED_FORMAT是 _xml_ 使用的导出器是 _类scrapy.exporters.XmlItemExporter_

使用 FEED_EXPORTERS 设置,支持的格式也可以扩展 -

序号 格式和说明
1 Pickle FEED_FORMAT是pickel 使用的出口商是 _类scrapy.exporters.PickleItemExporter_
2 Marshal FEED_FORMAT是Marshal 使用的出口商是 _类scrapy.exporters.MarshalItemExporter_

存储后端

存储后端定义了使用URI存储Feed的位置。

下表显示了支持的存储后端:

序号 存储后端和说明
1 Local filesystem URI方案是 _文件_ ,它用于存储提要。
2 FTP URI方案是 _ftp_ ,它用于存储提要。
3 S3 URI方案是 _S3_ ,并且订阅源存储在Amazon S3上。外部库[botocore](https://github.com/boto/botocore)或[博托](https://github.com/boto/boto)是必需的。
4 标准输出 URI方案是 _stdout_ ,并且提要被存储到标准输出。

存储URI参数

以下是存储URL的参数,在创建Feed时会被替换:

  • %(时间)s:该参数被时间戳替换。
  • %(name)s:该参数被spider名称取代。

设置

下表显示了可以配置Feed输出的设置:

序号 设置和说明
1 FEED_URI 它是用于启用饲料出口的出口饲料的URI。
2 FEED_FORMAT 它是用于馈送的序列化格式。
3 FEED_EXPORT_FIELDS 它用于定义需要导出的字段。
4 FEED_STORE_EMPTY 它定义是否导出没有项目的提要。
5 FEED_STORAGES 这是一个包含额外的Feed存储后端的词典。
6 FEED_STORAGES_BASE 这是一个带有内置后端存储后台的字典。
7 FEED_EXPORTERS 这是一本有额外饲料出口商的字典。
8 FEED_EXPORTERS_BASE 这是一本内置饲料出口商的字典。

下一章:Scrapy 请求和响应

Scrapy请求和响应:Scrapy可以使用 Request 和 Response 对象来抓取网站。请求对象通过系统,使用蜘蛛执行请求,并在返回响应对象时返回请求。 请求对象请求对象是一个生成响应的HTTP请求。它有以下班级:cl ...