Copyright © 2022-2024 aizws.net · 网站版本: v1.2.6·内部版本: v1.23.3·
页面加载耗时 0.00 毫秒·物理内存 60.2MB ·虚拟内存 1299.8MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
存储数据的最佳方法是使用Feed输出,这可确保使用多个序列化格式正确存储数据。JSON,JSON行,CSV,XML是序列化格式中支持的格式。数据可以通过以下命令存储:
scrapy crawl dmoz -o data.json
该命令将创建一个 data.json 文件,其中包含JSON中的抓取数据。这项技术适用于少量的数据。如果需要处理大量数据,那么我们可以使用Item Pipeline。就像data.json文件一样,当在 tutorial / pipelines.py中 创建项目时,会创建一个保留文件。
Scrapy记录:记录 意味着跟踪事件,它使用内置的日志记录系统并定义实现应用程序和库的函数和类。记录是一种随时可用的材料,可用于记录设置中列出的Scrapy设置。Scrapy会设置一些默认设置,并在运行命令时通过scrapy.utils. ...