全部教程· Python语言· Scrapy爬虫 · Response 和 Selector

返回

Scrapy response 属性和 Selector 对象

Scrapy 项目中，抓取的数据生成了 response 对象。我们主要针对 response 对象进行分析，提取特定的数据项。在数据分析过程中，需要频繁使用 xpath、css 表达式操作 Selector 对象。

1. response 属性

url ：HTTP 响应的 url 地址，str 类型。
status：HTTP 响应的状态码，int 类型。
headers ：HTTP 响应的头部，类字典类型，可以调用 get 或者 getlist 方法对其进行访问。
body：HTTP 响应正文，bytes 类型。
text：文本形式的 HTTP 响应正文，str 类型。

    response.text = response.body.decode(response.encoding)

encoding：HTTP 响应正文的编码。
reqeust：产生该 HTTP 响应的 Reqeust 对象。
meta：即 response.request.meta，在构造 Request 对象时，可将要传递给响应处理函数的信息通过 meta 参数传入，响应处理函数处理响应时，通过 response.meta 将信息提取出来。
selector：Selector 对象用于在 Response 中提取数据，主要是 xpath、css 取值之后的处理。
xpath(query)：下面详细讲解。
css(query) ：下面详细讲解。
urljoin(url) ：用于构造绝对 url，当传入的 url 参数是一个相对地址时，根据 response.url 计算出相应的绝对 url。

2. Selector 对象

Selector 对象和 SelectorList 对象都有以下几种方法。

extract()：返回选中内容的 Unicode 字符串。
re("正则表达式")：使用正则表达式提取数据。
extract_first()(SelectorList独有)：返回列表中的第一个元素内容。
re_first()(SelectorList独有)：返回列表中的第一个元素内容。

下一章：Scrapy Spider

爬虫 Spider 是一个定义如何抓取某个网站的类，包括如何执行抓取以及如何从其网页中提取结构化数据。换句话说，Spider是您定义用于为特定网站抓取和解析网页的自定义行为的位置。

上一章：Scrapy CSS 和 XPath 提取数据

下一章：Scrapy Spider

小贴士

全部【编程教程】内容源自网络，仅供学习用途，若有遗漏或版权任何问题，请及时【联系我们】，按下 Ctrl+D 或 ⌘+D 收藏本站。

快速标题定位

1. response 属性
2. Selector 对象

他人最近浏览

用户 8分前浏览了 [编程面试题集锦] 的 [Java实习生面试题的重点题集]
用户 1小时前浏览了 [Python3教程] 的 [Python3 SMTP发送邮件]
用户 1小时前浏览了 [美团技术架构] 的 [移动开发：美团外卖Android Lint代码检查实践]
用户 2小时前浏览了 [JDK下载] 的 [JDK8 下载]
用户 3小时前浏览了 [美团技术架构] 的 [即时配送的订单分配策略：从建模和优化]
用户 3小时前浏览了 [Python3教程] 的 [Python3 运算符]
用户 3小时前浏览了 [编程面试题集锦] 的 [Java高级工程师原理面试题分析]
用户 4小时前浏览了 [编程面试题集锦] 的 [Java易错点区分的面试题合集]
用户 5小时前浏览了 [美团技术架构] 的 [大众点评App的短视频耗电量优化实战]
用户 5小时前浏览了 [编程面试题集锦] 的 [Java面试题的基础知识点]

推荐 AI 小工具

^[新]Hi简历

Janitor AI 角色扮演聊天

CapCut剪映专业版

在问

xAI Grok

云雀大模型

抖音Dreamina – 免费

喵呜提示词助手

Midjourney提示词（咒语）生成器

LiblibAI·哩布哩布AI

反谱

TTS Online

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程 / 今日访问885人，当前在线43人，最高同时在线55人

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。