25、Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—Requests請(qǐng)求和Response響應(yīng)

Shihira 發(fā)布于2019-07-31 11:31 / 3692人閱讀

摘要：百度云搜索，搜各種資料搜網(wǎng)盤(pán)，搜各種資料請(qǐng)求請(qǐng)求就是我們?cè)谂老x(chóng)文件寫(xiě)的方法，也就是提交一個(gè)請(qǐng)求地址，請(qǐng)求是我們自定義的方法提交一個(gè)請(qǐng)求參數(shù)字符串類型地址回調(diào)函數(shù)名稱字符串類型請(qǐng)求方式，如果字典類型的，瀏覽器用戶代理設(shè)置字典類型鍵值對(duì)，向回調(diào)

【百度云搜索，搜各種資料:http://www.lqkweb.com】 【搜網(wǎng)盤(pán)，搜各種資料:http://www.swpan.cn】

Requests請(qǐng)求

Requests請(qǐng)求就是我們?cè)谂老x(chóng)文件寫(xiě)的Requests()方法，也就是提交一個(gè)請(qǐng)求地址，Requests請(qǐng)求是我們自定義的**

Requests()方法提交一個(gè)請(qǐng)求

　　參數(shù)：

　　url= ?字符串類型url地址

　　callback= 回調(diào)函數(shù)名稱

　　method= 字符串類型請(qǐng)求方式，如果GET,POST

　　headers= 字典類型的，瀏覽器用戶代理

　　cookies= 設(shè)置cookies

　　meta= 字典類型鍵值對(duì)，向回調(diào)函數(shù)直接傳一個(gè)指定值

　　encoding= 設(shè)置網(wǎng)頁(yè)編碼

　　priority= 默認(rèn)為0，如果設(shè)置的越高，越優(yōu)先調(diào)度

　　dont_filter= 默認(rèn)為False，如果設(shè)置為真，會(huì)過(guò)濾掉當(dāng)前url

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request,FormRequest
import?re

class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲(chóng)類，必須繼承scrapy.Spider
????name?=?"pach"???????????????????????????????????????????#設(shè)置爬蟲(chóng)名稱
????allowed_domains?=?["www.luyin.org/"]????????????????????#爬取域名
????#?start_urls?=?[""]?????????????????????????????????????#爬取網(wǎng)址,只適于不需要登錄的請(qǐng)求，因?yàn)闆](méi)法設(shè)置cookie等信息

????header?=?{"User-Agent":"Mozilla/5.0?(Windows?NT?10.0;?WOW64;?rv:54.0)?Gecko/20100101?Firefox/54.0"}??#設(shè)置瀏覽器用戶代理

????def?start_requests(self):????#起始url函數(shù)，會(huì)替換start_urls
????????"""第一次請(qǐng)求一下登錄頁(yè)面，設(shè)置開(kāi)啟cookie使其得到cookie，設(shè)置回調(diào)函數(shù)"""
????????return?[Request(
????????????url="http://www.luyin.org/",
????????????headers=self.header,
????????????meta={"cookiejar":1},???????#開(kāi)啟Cookies記錄，將Cookies傳給回調(diào)函數(shù)
????????????callback=self.parse
????????)]

????def?parse(self,?response):
????????title?=?response.xpath("/html/head/title/text()").extract()
????????print(title)

Response響應(yīng)

Response響應(yīng)是由downloader返回的響應(yīng)

Response響應(yīng)參數(shù)
　　headers 返回響應(yīng)頭
　　status 返回狀態(tài)嗎
　　body 返回頁(yè)面內(nèi)容，字節(jié)類型
　　url 返回抓取url

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request,FormRequest
import?re

class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲(chóng)類，必須繼承scrapy.Spider
????name?=?"pach"???????????????????????????????????????????#設(shè)置爬蟲(chóng)名稱
????allowed_domains?=?["www.luyin.org/"]????????????????????#爬取域名
????#?start_urls?=?[""]?????????????????????????????????????#爬取網(wǎng)址,只適于不需要登錄的請(qǐng)求，因?yàn)闆](méi)法設(shè)置cookie等信息

????header?=?{"User-Agent":"Mozilla/5.0?(Windows?NT?10.0;?WOW64;?rv:54.0)?Gecko/20100101?Firefox/54.0"}??#設(shè)置瀏覽器用戶代理

????def?start_requests(self):????#起始url函數(shù)，會(huì)替換start_urls
????????"""第一次請(qǐng)求一下登錄頁(yè)面，設(shè)置開(kāi)啟cookie使其得到cookie，設(shè)置回調(diào)函數(shù)"""
????????return?[Request(
????????????url="http://www.luyin.org/",
????????????headers=self.header,
????????????meta={"cookiejar":1},???????#開(kāi)啟Cookies記錄，將Cookies傳給回調(diào)函數(shù)
????????????callback=self.parse
????????)]

????def?parse(self,?response):
????????title?=?response.xpath("/html/head/title/text()").extract()
????????print(title)
????????print(response.headers)
????????print(response.status)
????????#?print(response.body)
????????print(response.url)

GPU云服務(wù)器云服務(wù)器 requests請(qǐng)求 python的requests安裝 scrapy分布式爬蟲(chóng) javaweb請(qǐng)求響應(yīng)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/45270.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Shihira

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow圖片分類

閱讀 986·2023-04-26 01:34
tensorflow更新

閱讀 3432·2023-04-25 20:58
racknerd開(kāi)啟rdns也就是PTR 反向解析的教程

閱讀 3609·2021-11-08 13:22
css 水平垂直居中實(shí)現(xiàn)方式

閱讀 2171·2019-08-30 14:17
HTML 1-樣式引入、路徑、尺寸單位

閱讀 2578·2019-08-29 15:27
重拾css(7)——選擇器的優(yōu)先級(jí)

閱讀 2739·2019-08-29 12:45
安卓開(kāi)源項(xiàng)目周報(bào)0419

閱讀 3110·2019-08-29 12:26
談?wù)剋hite-space和word-wrap

閱讀 2874·2019-08-28 17:51

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

25、Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—Requests請(qǐng)求和Response響應(yīng)

相關(guān)文章

**22、Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—scrapy模擬登陸和知乎倒立文字驗(yàn)證碼識(shí)**

**18、 Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動(dòng)文件的配置—xpath表**

**23、 Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—craw scrapy item lo**

**19、 Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—css選擇器**

**20、 Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—編寫(xiě)spiders爬蟲(chóng)文件循環(huán)抓取內(nèi)容**

發(fā)表評(píng)論

0條評(píng)論

Shihira

男|高級(jí)講師

TA的文章

tensorflow圖片分類

tensorflow更新

racknerd開(kāi)啟rdns也就是PTR 反向解析的教程

css 水平垂直居中實(shí)現(xiàn)方式

HTML 1-樣式引入、路徑、尺寸單位

重拾css(7)——選擇器的優(yōu)先級(jí)

安卓開(kāi)源項(xiàng)目周報(bào)0419

談?wù)剋hite-space和word-wrap

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

25、Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—Requests請(qǐng)求和Response響應(yīng)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！