欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
全部教程·
Python语言·
Scrapy爬虫
[目录]
·
Scrapy 概述
Scrapy 教程
Scrapy 创建项目
Scrapy 官方示例
Scrapy 命令行工具
Scrapy 调试终端
Scrapy 提取数据
Response 和 Selector
Scrapy Spider
Scrapy Spider 分类
Scrapy 概述
Scrapy 环境
Scrapy 蜘蛛
Scrapy 选择器
Scrapy 项目
Scrapy Item Loaders
Scrapy shell
Scrapy Item Pipeline
Scrapy Feed exports
Scrapy 请求和响应
Scrapy 链接提取器
Scrapy 设置
Scrapy 异常
Scrapy 创建一个项目
Scrapy 定义一个项目
Scrapy 第一个蜘蛛
Scrapy 爬取
Scrapy 提取项目
Scrapy 使用Item
Scrapy 跟踪链接
Scrapy 保存数据
Scrapy 记录
Scrapy 统计收集
Scrapy 发送电子邮件
Scrapy Telnet控制台
Scrapy Web服务
Scrapy 教程
Scrapy 创建项目
Scrapy 官方示例
Scrapy 命令行工具
Scrapy 调试终端
Scrapy 提取数据
Response 和 Selector
Scrapy Spider
Scrapy Spider 分类
Scrapy 概述
Scrapy 环境
Scrapy 蜘蛛
Scrapy 选择器
Scrapy 项目
Scrapy Item Loaders
Scrapy shell
Scrapy Item Pipeline
Scrapy Feed exports
Scrapy 请求和响应
Scrapy 链接提取器
Scrapy 设置
Scrapy 异常
Scrapy 创建一个项目
Scrapy 定义一个项目
Scrapy 第一个蜘蛛
Scrapy 爬取
Scrapy 提取项目
Scrapy 使用Item
Scrapy 跟踪链接
Scrapy 保存数据
Scrapy 记录
Scrapy 统计收集
Scrapy 发送电子邮件
Scrapy Telnet控制台
Scrapy Web服务
Scrapy概述
Scrapy是一个用Python编写的快速,开源的网页爬虫框架,用于在基于XPath的选择器的帮助下从网页中提取数据。
Scrapy于2008年6月26日首次在BSD下发布,并于2015年6月发布了里程碑1.0。
为什么使用Scrapy?
- 构建和扩展大型爬取项目比较容易。
- 它有一个称为选择器的内置机制,用于从网站中提取数据。
- 它异步处理请求并且速度很快。
- 它使用自动调节机制自动调整爬网速度。
- 确保开发者无障碍。
Scrapy的特点
- Scrapy是一个开放源代码并可以免费使用网络爬虫框架。
- Scrapy以JSON,CSV和XML等格式生成Feed输出。
- Scrapy具有内置支持,可以通过XPath或CSS表达式从源选择和提取数据。
- 基于爬虫的Scrapy允许自动从网页中提取数据。
优点
- Scrapy很容易扩展,快速和强大。
- 它是一个跨平台的应用程序框架(Windows,Linux,Mac OS和BSD)。
- Scrapy请求被安排和异步处理。
- Scrapy带有称为 Scrapyd的 内置服务,它允许使用JSON Web服务上传项目和控制蜘蛛。
- 尽管该网站没有用于原始数据访问的API,但可以取消任何网站。
缺点
- Scrapy仅适用于Python 2.7。+
- 不同的操作系统安装是不同的。
下一章:Scrapy 环境
Scrapy环境:在本章中,我们将讨论如何安装和设置Scrapy。Scrapy必须与Python一起安装。Scrapy可以通过使用 pip 来安装。要安装,请运行以下命令:pip install Scrapy视窗注意 - Windows 3 ...
AI 中文社