Copyright © 2022-2025 aizws.net · 网站版本: v1.2.6·内部版本: v1.23.4·
页面加载耗时 0.00 毫秒·物理内存 71.6MB ·虚拟内存 1300.8MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
项目是用于收集从网站报废的数据的容器。你必须通过定义你的物品来启动你的蜘蛛。要定义项目,请编辑在 first_scrapy (自定义目录)目录下找到的 items.py 文件。该 items.py 看起来如下:
import scrapy class First_scrapyItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field()
该 MyItem 类从继承 项目 包含了许多Scrapy已建成为我们预先定义的对象。例如,如果要从网站中提取名称,网址和说明,则需要为这三个属性中的每一个定义字段。
因此,我们添加我们想要收集的项目:
from scrapy.item import Item, Field class First_scrapyItem(scrapy.Item): name = scrapy.Field() url = scrapy.Field() desc = scrapy.Field()
Scrapy第一蜘蛛:Spider是一个定义初始URL的类,用于提取数据,如何遵循分页链接以及如何提取和解析 items.py中 定义的字段。Scrapy提供了不同类型的蜘蛛,每种蜘蛛都有特定的用途。在first_scrapy / spid ...