摘要:下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝爬蟲(chóng)可以簡(jiǎn)單分為幾步抓取頁(yè)面分析頁(yè)面存儲(chǔ)數(shù)據(jù)。相關(guān)鏈接官方網(wǎng)站官方文檔中文文檔安裝驗(yàn)證安裝進(jìn)入命令行交互模式,導(dǎo)入一下包,如果沒(méi)有報(bào)錯(cuò),則證明安裝成功。
下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aiohttp
爬蟲(chóng)可以簡(jiǎn)單分為幾步:抓取頁(yè)面、分析頁(yè)面、存儲(chǔ)數(shù)據(jù)。
在第一步抓取頁(yè)面的過(guò)程中,我們就需要模擬瀏覽器向服務(wù)器發(fā)出請(qǐng)求,所以需要用到一些 Python 庫(kù)來(lái)實(shí)現(xiàn) HTTP 請(qǐng)求操作,在本書(shū)中我們用到的第三方庫(kù)有 Requests、Selenium、Aiotttp 等。
在本節(jié)我們介紹一下這些請(qǐng)求庫(kù)的安裝方法。
1.1.1 Requests的安裝由于 Requests 屬于第三方庫(kù),也就是 Python 默認(rèn)不會(huì)自帶這個(gè)庫(kù),需要我們手動(dòng)去安裝,下面我們首先看一下它的安裝過(guò)程。
1. 相關(guān)鏈接GitHub:https://github.com/requests/r...
PyPy:https://pypi.python.org/pypi/...
官方文檔:http://www.python-requests.org
中文文檔:http://docs.python-requests.o...
2. 安裝pip3 install requests3. 驗(yàn)證安裝
為了驗(yàn)證庫(kù)是否已經(jīng)安裝成功,可以在命令行下測(cè)試一下:
$ python3 >>> import requests
在命令行首先輸入 python3,進(jìn)入命令行模式,然后輸入如上內(nèi)容,如果什么錯(cuò)誤提示也沒(méi)有,那么就證明我們已經(jīng)成功安裝了 Requests。
1.1.2 Selenium的安裝Selenium 是一個(gè)自動(dòng)化測(cè)試工具,利用它我們可以驅(qū)動(dòng)瀏覽器執(zhí)行特定的動(dòng)作,如點(diǎn)擊、下拉等等操作,對(duì)于一些 JavaScript 渲染的頁(yè)面來(lái)說(shuō),此種抓取方式非常有效,下面我們來(lái)看下 Selenium 的安裝過(guò)程。
1. 相關(guān)鏈接官方網(wǎng)站:http://www.seleniumhq.org
GitHub:https://github.com/SeleniumHQ...
PyPi:https://pypi.python.org/pypi/...
官方文檔:http://selenium-python.readth...
中文文檔:http://selenium-python-zh.rea...
2. 安裝pip3 install selenium3. 驗(yàn)證安裝
進(jìn)入 Python 命令行交互模式,導(dǎo)入一下 Selenium 包,如果沒(méi)有報(bào)錯(cuò),則證明安裝成功。
$ python3 >>> import selenium
但這樣還不夠,我們還需要瀏覽器如 Chrome、Firefox 等瀏覽器來(lái)配合 Selenium 工作。
下面我們會(huì)介紹 Chrome、Firefox、PhantomJS 三種瀏覽器的配置方式,有了瀏覽器我們才可以配合 Selenium 進(jìn)行頁(yè)面的抓取。
1.1.3 ChromeDriver的安裝在上節(jié)我們成功安裝好了 Selenium 庫(kù),但是它是一個(gè)自動(dòng)化測(cè)試工具,需要瀏覽器來(lái)配合它使用,那么本節(jié)我們就介紹一下 Chrome 瀏覽器及 ChromeDriver 驅(qū)動(dòng)的配置。
首先需要下載一個(gè) Chrome 瀏覽器,方法多樣,在此不再贅述。
隨后我們需要安裝一個(gè) ChromeDriver 才能驅(qū)動(dòng) Chrome 瀏覽器完成相應(yīng)的操作,下面我們來(lái)介紹下怎樣安裝 ChromeDriver。
官方網(wǎng)站:https://sites.google.com/a/ch...
下載地址:https://chromedriver.storage....
2. MAC安裝brew install chromedriver
如果安裝失敗,使用下面方法
brew cask install chromedriver3. 驗(yàn)證安裝
配置完成之后,就可以在命令行下直接執(zhí)行 chromedriver 命令了。
命令行下輸入:
chromedriver
輸入控制臺(tái)有類(lèi)似輸出,如圖 1-17 所示:
圖 1-17 控制臺(tái)輸出
如果有類(lèi)似輸出則證明 ChromeDriver 的環(huán)境變量配置好了。
隨后再在程序中測(cè)試,執(zhí)行如下 Python 代碼:
from selenium import webdriver browser = webdriver.Chrome()
運(yùn)行之后會(huì)彈出一個(gè)空白的 Chrome 瀏覽器,證明所有的配置都沒(méi)有問(wèn)題,如果沒(méi)有彈出,請(qǐng)檢查之前的每一步的配置。
如果彈出之后閃退,則可能是 ChromeDriver 版本和 Chrome 版本不簡(jiǎn)容,請(qǐng)更換 ChromeDriver 版本。
如果沒(méi)有問(wèn)題,接下來(lái)我們就可以利用 Chrome 來(lái)做網(wǎng)頁(yè)抓取了。
既然 Chrome 可以通過(guò) Selenium 驅(qū)動(dòng),F(xiàn)irefox 也可以,如果想要實(shí)現(xiàn) Selenium 驅(qū)動(dòng) Firefox 瀏覽器可以參考下面的 GeckoDriver 的安裝。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/44022.html
摘要:上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)解析庫(kù)的安裝的安裝在上一節(jié)我們了解了的配置方法,配置完成之后我們便可以用來(lái)驅(qū)動(dòng)瀏覽器來(lái)做相應(yīng)網(wǎng)頁(yè)的抓取。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)解析庫(kù)的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---1、請(qǐng)求庫(kù)安裝:Requests、Selenium、ChromeDriver下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)--...
摘要:上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)數(shù)據(jù)爬取下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)動(dòng)態(tài)渲染頁(yè)面抓取本節(jié)我們以今日頭條為例來(lái)嘗試通過(guò)分析請(qǐng)求來(lái)抓取網(wǎng)頁(yè)數(shù)據(jù)的方法,我們這次要抓取的目標(biāo)是今日頭條的街拍美圖,抓取完成之后將每組圖片分文件夾下載到本地保存下來(lái)。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---35、 Ajax數(shù)據(jù)爬取下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---37、動(dòng)態(tài)渲染頁(yè)面抓取:Selenium 本節(jié)我們...
摘要:且本小白也親身經(jīng)歷了整個(gè)從小白到爬蟲(chóng)初入門(mén)的過(guò)程,因此就斗膽在上開(kāi)一個(gè)欄目,以我的圖片爬蟲(chóng)全實(shí)現(xiàn)過(guò)程為例,以期用更簡(jiǎn)單清晰詳盡的方式來(lái)幫助更多小白應(yīng)對(duì)更大多數(shù)的爬蟲(chóng)實(shí)際問(wèn)題。 前言: 一個(gè)月前,博主在學(xué)過(guò)python(一年前)、會(huì)一點(diǎn)網(wǎng)絡(luò)(能按F12)的情況下,憑著熱血和興趣,開(kāi)始了pyth...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:在前面我們講到了和的概念,我們向網(wǎng)站的服務(wù)器發(fā)送一個(gè),返回的的便是網(wǎng)頁(yè)源代碼。渲染頁(yè)面有時(shí)候我們?cè)谟没蜃ト【W(wǎng)頁(yè)時(shí),得到的源代碼實(shí)際和瀏覽器中看到的是不一樣的。所以使用基本請(qǐng)求庫(kù)得到的結(jié)果源代碼可能跟瀏覽器中的頁(yè)面源代碼不太一樣。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---16、Web網(wǎng)頁(yè)基礎(chǔ)下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---18、Session和Cookies 爬蟲(chóng),即網(wǎng)...
閱讀 590·2023-04-26 00:33
閱讀 3612·2021-11-24 09:39
閱讀 3222·2021-09-22 15:34
閱讀 2430·2019-08-23 18:07
閱讀 2985·2019-08-23 18:04
閱讀 3841·2019-08-23 16:06
閱讀 2964·2019-08-23 15:27
閱讀 1672·2019-08-23 14:32