pyspider 爬蟲教程（二）：AJAX 和 HTTP

ingood 發(fā)布于2019-07-24 17:52 / 2618人閱讀

摘要：在上一篇教程中，我們使用抓取豆瓣電影的內(nèi)容，并使用選擇器解析了一些內(nèi)容。挨個查看每個請求，通過訪問路徑和預(yù)覽，找到包含信息的請求在豆瓣這個例子中，請求并不多，可以挨個查看來確認(rèn)。腳本中還有一個使用渲染的提取版本，將會在下一篇教程中介紹。

在上一篇教程中，我們使用 self.crawl API 抓取豆瓣電影的 HTML 內(nèi)容，并使用 CSS 選擇器解析了一些內(nèi)容。不過，現(xiàn)在的網(wǎng)站通過使用 AJAX 等技術(shù)，在你與服務(wù)器交互的同時，不用重新加載整個頁面。但是，這些交互手段，讓抓取變得稍微難了一些：你會發(fā)現(xiàn)，這些網(wǎng)頁在抓回來后，和瀏覽器中的并不相同。你需要的信息并不在返回 HTML 代碼中。

在這一篇教程中，我們會討論這些技術(shù) 和抓取他們的方法。（英文版：AJAX-and-more-HTTP）

AJAX

AJAX 是 Asynchronous JavaScript and XML（異步的 JavaScript 和 XML）的縮寫。AJAX 通過使用原有的 web 標(biāo)準(zhǔn)組件，實(shí)現(xiàn)了在不重新加載整個頁面的情況下，與服務(wù)器進(jìn)行數(shù)據(jù)交互。例如在新浪微博中，你可以展開一條微博的評論，而不需要重新加載，或者打開一個新的頁面。但是這些內(nèi)容并不是一開始就在頁面中的（這樣頁面就太大了），而是在你點(diǎn)擊的時候被加載進(jìn)來的。這就導(dǎo)致了你抓取這個頁面的時候，并不能獲得這些評論信息（因為你沒有『展開』）。

AJAX 的一種常見用法是使用 AJAX 加載 JSON 數(shù)據(jù)，然后在瀏覽器端渲染。如果能直接抓取到 JSON 數(shù)據(jù)，會比 HTML 更容易解析。

當(dāng)一個網(wǎng)站使用了 AJAX 的時候，除了用 pyspider 抓取到的頁面和瀏覽器看到的不同以外。你在瀏覽器中打開這樣的頁面，或者點(diǎn)擊『展開』的時候，常常會看到『加載中』或者類似的圖標(biāo)/動畫。例如，當(dāng)你嘗試抓取：http://movie.douban.com/explore

你會發(fā)現(xiàn)電影是『載入中...』

找到真實(shí)的請求

由于 AJAX 實(shí)際上也是通過 HTTP 傳輸數(shù)據(jù)的，所以我們可以通過 Chrome Developer Tools 找到真實(shí)的請求，直接發(fā)起真實(shí)請求的抓取就可以獲得數(shù)據(jù)了。

打開一個新窗口

按 Ctrl+Shift+I (在 Mac 上請按 Cmd+Opt+I) 打開開發(fā)者工具。

切換到網(wǎng)絡(luò)（ Netwotk 面板）

在窗口中打開 http://movie.douban.com/explore

在頁面加載的過程中，你會在面板中看到所有的資源請求。

AJAX 一般是通過 XMLHttpRequest 對象接口發(fā)送請求的，XMLHttpRequest 一般被縮寫為 XHR。點(diǎn)擊網(wǎng)絡(luò)面板上漏斗形的過濾按鈕，過濾出 XHR 請求。挨個查看每個請求，通過訪問路徑和預(yù)覽，找到包含信息的請求：http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

在豆瓣這個例子中，XHR 請求并不多，可以挨個查看來確認(rèn)。但在 XHR 請求較多的時候，可能需要結(jié)合觸發(fā)動作的時間，請求的路徑等信息幫助在大量的請求中找到包含信息的關(guān)鍵請求。這需要抓取或者前端的相關(guān)經(jīng)驗。所以，有一個我一直在提的觀點(diǎn)，學(xué)習(xí)抓取的最好方法是：學(xué)會寫網(wǎng)站。

現(xiàn)在可以在新窗口中打開 http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0，你會看到包含電影數(shù)據(jù)的 JSON 原始數(shù)據(jù)。推薦安裝 JSONView（Firfox版）插件，這樣可以看到更好看的 JSON 格式，展開折疊列等功能。然后，我們根據(jù) JSON 數(shù)據(jù)，編寫一個提取電影名和評分的腳本：

pythonclass Handler(BaseHandler):
    def on_start(self):
        self.crawl("http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0",
                   callback=self.json_parser)

    def json_parser(self, response):
        return [{
            "title": x["title"],
            "rate": x["rate"],
            "url": x["url"]
        } for x in response.json["subjects"]]

你可以使用 response.json 將結(jié)果轉(zhuǎn)為一個 python 的 dict 對象

你可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 獲得完整的代碼，并進(jìn)行調(diào)試。腳本中還有一個使用 PhantomJS 渲染的提取版本，將會在下一篇教程中介紹。
HTTP
HTTP 是用來傳輸網(wǎng)頁內(nèi)容的協(xié)議。在前面的教程中，我們已經(jīng)通過 self.crawl 接口提交了 URL 進(jìn)行了抓取。這些抓取就是通過 HTTP 協(xié)議傳輸?shù)摹?/p>
在抓取過程中，你可能會遇到類似 403 Forbidden，或者需要登錄的情況，這時候你就需要正確的 HTTP 參數(shù)進(jìn)行抓取了。

一個典型的 HTTP 請求包如下，這個請求是發(fā)往 http://example.com/ 的：

httpGET / HTTP/1.1
Host: example.com
Connection: keep-alive
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36
Referer: http://en.wikipedia.org/wiki/Example.com
Accept-Encoding: gzip, deflate, sdch
Accept-Language: zh-CN,zh;q=0.8
If-None-Match: "359670651"
If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT

請求的第一行包含 method, path 和 HTTP 協(xié)議的版本信息

余下的行被稱為 header，是以 key: value 的形式呈現(xiàn)的

如果是 POST 請求，在請求結(jié)尾可能還會有 body 內(nèi)容

你可以通過前面用過的 Chrome Developer Tools 工具查看到這些信息：

在大多數(shù)時候，使用正確的 method, path, headers 和 body 總是能抓取到你需要的信息的。
HTTP Method
HTTP Method 告訴服務(wù)器對 URL 資源期望進(jìn)行的操作。例如在打開一個 URL 的時候使用的是 GET 方式，而在提交數(shù)據(jù)的時候一般使用 POST。

TODO： need example here
HTTP Headers
HTTP Headers 是請求所帶的一個參數(shù)列表，你可以在這里找到完整的常用 Headers 列表。一些常用的需要注意的有：
User-Agent
UA 是標(biāo)識你使用的瀏覽器，或抓取程序的一段字符串。pyspider 使用的默認(rèn) UA 是 pyspider/VERSION (+http://pyspider.org/)。網(wǎng)站常用這個字符串來區(qū)分用戶的操作系統(tǒng)和瀏覽器，以及判斷對方是否是爬蟲。所以在抓取的時候，常常會對 UA 進(jìn)行偽裝。

在 pyspider 中，你可以通過 self.crawl(URL, headers={"User-Agent": "pyspider"})，或者是 crawl_config = {"headers": {"User-Agent": "xxxx"}} 來指定腳本級別的 UA。詳細(xì)請查看 API 文檔。
Referer
Referer 用于告訴服務(wù)器，你訪問的上一個網(wǎng)頁是什么。常常被用于防盜鏈，在抓取圖片的時候可能會用到。
X-Requested-With
當(dāng)使用 XHR 發(fā)送 AJAX 請求時會帶上的 Header，常被用于判斷是不是 AJAX 請求。例如在北郵人論壇中，你需要：

python    def on_start(self):
        self.crawl("http://bbs.byr.cn/board/Python",
                   headers={"X-Requested-With": "XMLHttpRequest"},
                   callback=self.index_page)

帶有 headers={"X-Requested-With": "XMLHttpRequest"} 才能抓取到內(nèi)容。
HTTP Cookie
雖然 Cookie 只是 HTTP Header 中的一個，但是因為非常重要，但是拿出來說一下。Cookie 被 HTTP 請求用來區(qū)分、追蹤用戶的身份，當(dāng)你在一個網(wǎng)站登錄的時候，就是通過寫入 Cookie 字段來記錄登錄狀態(tài)的。

當(dāng)遇到需要登錄的網(wǎng)站，你需要通過設(shè)置 Cookie 參數(shù)，來請求需要登錄的內(nèi)容。Cookie 可以通過開發(fā)者工具的請求面板，或者是資源面板中獲得。在 pyspider 中，你也可以使用 response.cookies 獲得返回的 cookie，并使用 self.crawl(URL, cookie={"key": "value"}) 來設(shè)置請求的 Cookie 參數(shù)。

原文：http://blog.binux.me/2015/01/pyspider-tutorial-level-2-ajax-and-more-http/

GPU云服務(wù)器云服務(wù)器 http頁面ajax https http爬蟲 ajax爬蟲 python_ajax爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/37476.html

上一篇：Flask Web Development —— Web表單（下）

下一篇：pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

相關(guān)文章

pyspider 爬蟲教程（三）：使用 PhantomJS 渲染帶 JS 的頁面

摘要：英文原文在上兩篇教程中，我們學(xué)習(xí)了怎么從中提取信息，也學(xué)習(xí)了怎么處理一些請求復(fù)雜的頁面。在使用之前，你需要安裝它安裝文檔。當(dāng)你安裝了之后，在運(yùn)行模式的時就會自動啟用了。使用當(dāng)連上代理后，你就能通過在中添加的參數(shù)，開啟使用抓取。英文原文：http://docs.pyspider.org/en/latest/tutorial/Render-with-PhantomJS/ 在上兩篇教程中...

zhongmeizhi 2019-07-31 11:35 評論0 收藏0

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

摘要：楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù)，現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí)，。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù)，服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù)，現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí)，http://www.chujiangdata.com。第一：Python爬蟲學(xué)習(xí)系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0

pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

摘要：但是感覺還是需要一篇的教程，不然沒有一個總體的認(rèn)識。修飾器，表示每天會執(zhí)行一次，這樣就能抓到最新的電影了。不過更推薦使用選擇器。既然前端程序員都使用選擇器為頁面上的不同元素設(shè)置樣式，我們也可以通過它定位需要的元素。雖然以前寫過如何抓取WEB頁面和如何從 WEB 頁面中提取信息。但是感覺還是需要一篇 step by step 的教程，不然沒有一個總體的認(rèn)識。不過，沒想到這個教程居...

ShevaKuilin 2019-07-24 17:52 評論0 收藏0

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy

摘要：所以如果對爬蟲有一定基礎(chǔ)，上手框架是一種好的選擇。缺少包，使用安裝即可缺少包，使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)爬取相關(guān)庫的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)爬蟲框架的安裝上一篇文章：Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---9、APP爬取相關(guān)庫的安裝：Appium的安裝下一篇文章：Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---11、爬蟲框架的安裝：ScrapySplash、ScrapyRedis 我們直接...

張憲坤 2019-07-31 10:34 評論0 收藏0

學(xué)會了這項技能，你就能獲得任何想要的信息！

摘要：環(huán)境準(zhǔn)備任務(wù)時間前置環(huán)境部署在開始部署前，我們需要做一些前置準(zhǔn)備。此時輸入并回車，應(yīng)該可以看到類似下面這樣的輸出，說明一切正常。完成后，可以通過快捷鍵或命令行鍵入來退出，進(jìn)入下一步。歡迎大家前往騰訊云+社區(qū)，獲取更多騰訊海量技術(shù)實(shí)踐干貨哦~ 本文由騰訊云實(shí)驗室發(fā)表于云+社區(qū)專欄騰訊云提供了開發(fā)者實(shí)驗室教你搭建 PySpider 爬蟲服務(wù)，教程內(nèi)容如下，用戶可以點(diǎn)擊開發(fā)者實(shí)驗室快速...

chenatu 2019-07-30 17:36 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

ingood

男|高級講師

我要關(guān)注我要私信

TA的文章
閱讀更多

增強(qiáng)全面從嚴(yán)治黨永遠(yuǎn)在路上的堅定和執(zhí)著——論學(xué)習(xí)貫徹黨的十九屆六中全會精神

閱讀 3189·2021-11-24 09:38

什么叫獨(dú)立主機(jī)-什么是云主機(jī)，與獨(dú)立服務(wù)器有什么區(qū)別？

閱讀 1416·2021-09-22 15:27

程序員的自我修煉——新手如何學(xué)好編程

閱讀 3046·2021-09-10 10:51

C語言進(jìn)階：指針進(jìn)階續(xù)

閱讀 1590·2021-09-09 09:33

DediPath夏季促銷：洛杉磯E3服務(wù)器每月39美元起,紐約服務(wù)器每月49美元起

閱讀 993·2021-08-09 13:47

應(yīng)該了解的 Web 圖標(biāo)解決方案

閱讀 2167·2019-08-30 13:05

Styled-Components

閱讀 957·2019-08-29 15:15

關(guān)于移動端文字無法垂直居中（或line-height不起作用）的問題的解決方案

閱讀 2625·2019-08-29 12:21

最新活動

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

pyspider 爬蟲教程（二）：AJAX 和 HTTP

相關(guān)文章

pyspider 爬蟲教程（三）：使用 PhantomJS 渲染帶 JS 的頁面

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

**Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy**

學(xué)會了這項技能，你就能獲得任何想要的信息！

發(fā)表評論

0條評論

ingood

男|高級講師

TA的文章

增強(qiáng)全面從嚴(yán)治黨永遠(yuǎn)在路上的堅定和執(zhí)著——論學(xué)習(xí)貫徹黨的十九屆六中全會精神

什么叫獨(dú)立主機(jī)-什么是云主機(jī)，與獨(dú)立服務(wù)器有什么區(qū)別？

程序員的自我修煉——新手如何學(xué)好編程

C語言進(jìn)階：指針進(jìn)階續(xù)

DediPath夏季促銷：洛杉磯E3服務(wù)器每月39美元起,紐約服務(wù)器每月49美元起

應(yīng)該了解的 Web 圖標(biāo)解決方案

Styled-Components

關(guān)于移動端文字無法垂直居中（或line-height不起作用）的問題的解決方案

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

pyspider 爬蟲教程（二）：AJAX 和 HTTP

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！