Copyright © 2022-2024 aizws.net · 网站版本: v1.1.1·内部版本: v1.22.5·
页面加载耗时 0.00 毫秒·物理内存 73.5MB ·虚拟内存 1299.0MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
Scrapy 是一套基于 Twisted 异步处理框架,纯 Python 实现的爬虫框架。
使用者只需要定制开发几个简单的模块,就能够轻松的实现一个爬虫。它可以用来抓取网页内容以及各种图片,使用非常简单方便。
Scrapy 框架主要由 Scrapy Engine(引擎)、Scheduler(调度器)、Downloader(下载器)、Spider(爬虫)、Item Pipeline(管道) 组成,另外还有常用的两个中间件:Downloader Middlewares(下载中间件)和 Spider Middlewares(Spider中间件)。
Scrapy 框架的组成模块和使用说明,如图:
我们使用 Scrapy 框架抓取数据,通常只需要编写两部分代码:爬虫(Spider模块) 和 管道(Item Pipeline模块)。爬虫模块负责提供需要抓取的 Url 链接和网页解析工作,管道模块负责存储数据到数据库或者文件。
我们可以快速地使用 Scrapy 框架快速创建项目,然后简单编写一个爬虫文件,抓取数据。比如,抓取百度首页的标题:
import scrapy # 爬虫类 class BaiduSpider(scrapy.Spider): # 爬虫名称 name = 'baidu' # 抓取的页面 start_urls = ['https://baidu.com'] # 页面解析函数 def parse(self, response): title = response.css('title::text').extract_first() print("百度首页的标题:" + title)
运行结果:
百度首页的标题:百度一下,你就知道
Scrapy 安装、项目创建和运行:Scrapy 爬虫框架可以在 Python2、Python3 的版本上运行。1. Scrapy 安装:我们可以简单地通过 pip 安装 Scrapy 框架及其依赖:$ pip install Scrapy。2. Scrapy 创建项目:Scrapy 安装后,可以通过 Scrapy 命令创建一个爬虫项目,比如创建项目 tutorial:scrapy startproject tutorial。