scrapy入門

CrazyCodes 發(fā)布于2019-07-30 17:33 / 1462人閱讀

摘要：快速入門首先，初步要做的就是快速構(gòu)建一個(gè)爬蟲。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門，我們肯定是先關(guān)心我們需要的。

因?yàn)楣卷?xiàng)目需求，需要做一個(gè)爬蟲。所以我一個(gè)python小白就被拉去做了爬蟲?；藘芍軙r(shí)間，拼拼湊湊總算趕出來了。所以寫個(gè)blog做個(gè)記錄。

快速入門

首先，初步要做的就是快速構(gòu)建一個(gè)爬蟲。

配置環(huán)境 Mac下安裝

1) 直接從官網(wǎng)下載
python下載官網(wǎng)

2) 是通過brew安裝
首先安裝xcode
可以選擇在App Store安裝或者使用xcode-select --install這個(gè)命令安裝

接著安裝brew

usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

把這個(gè)命令輸入終端運(yùn)行就可以安裝了
brew官網(wǎng)

接著利用brew安裝python3
brew install python3

安裝完python3以后，我們來裝scrapy。因?yàn)閜ython3是自帶pip3的，
所以如果找不到該命令的話，可以去看看python3的安裝路徑。brew是將其安裝在了usrlocalin這個(gè)目錄下。

如果pip沒安裝上的話，不要慌。我們還可以通過命令來安裝

curl -O https://bootstrap.pypa.io/get-pip.py
python3 get-pip.py

接下來安裝scrapy
輸入命令pip3 install Scrapy就可以了

windows下安裝

首先從官網(wǎng)上下載msi文件
在安裝選項(xiàng)中勾選上需要pip

然后在cmd中輸入
pip3 install Scrapy

完成

Linux安裝

sudo get-apt install python36 python36-devel gcc
sudo pip3 install Scrapy

兩條命令就搞定了。
因?yàn)槲业呐老x是跑在docker上，有些鏡像可能沒有g(shù)cc。所以需要devel和gcc，否則有些包會(huì)安不上。切記

Redhat系的話，只需要把get-apt改成yum就可以了

快速開始

建立項(xiàng)目 scrapy startproject demo

建立爬蟲 scrapy genspider demo_spider www.google.com

啟動(dòng)爬蟲 scrapy crwal demo_spider

當(dāng)你建立完項(xiàng)目的時(shí)候，scrapy會(huì)幫你生成一堆文件。

目錄結(jié)構(gòu)是這樣的

在你的demo項(xiàng)目中，會(huì)有個(gè)scrapy.cfg的配置文件和一個(gè)demo的文件夾

scrapy.cfg這個(gè)文件我們先暫時(shí)不去關(guān)心。我們來關(guān)心一下demo文件夾下的東西
分別是items.py,middlewares.py,pipelines.py,settings.py和一個(gè)spiders文件夾。

接著我們?nèi)?b>spiders目錄下去創(chuàng)建一個(gè)爬蟲scrapy genspider demo_spider www.google.com

OK，爬蟲生成功了。

spider初步解析

我們來初步解析一下這個(gè)爬蟲。
有一個(gè)DemoSpiderSpider的類。很明顯，這個(gè)是我們剛才生成爬蟲的名字為demo_spider然后后面又添加了一個(gè)Spider。

接著往下看，有個(gè)name的屬性，這個(gè)屬性很重要，我們到時(shí)候啟動(dòng)爬蟲的時(shí)候，就要通過這個(gè)name來告知scarpy啟動(dòng)的是哪個(gè)爬蟲

allowed_demains是用來指定，我們只爬取哪些域名下的。比如說，我在爬取google的搜索結(jié)果的時(shí)候，會(huì)爬到很多別的網(wǎng)站，這個(gè)屬性就是用來告知，除了www.google.com以外的，我都不爬取。

start_urls是用來做啟動(dòng)url，看命名就知道了?？梢园裇crapy的爬取過程看成一個(gè)廣度搜索。所以它會(huì)先迅速把start_urls下的所有url都爬取一遍。然后把結(jié)果加入到一個(gè)隊(duì)列中。也是因?yàn)檫@個(gè)原因，所以在做并發(fā)爬蟲時(shí)，會(huì)讓不同的爬蟲的start_urls不一樣。~~當(dāng)然還有重復(fù)的問題要解決（笑）~~

接下來就是parse方法了，我們對(duì)頁面的爬取也是在這個(gè)parse中解決

向外走

初步理解了spider，我們往外層走。

我們首先來假想幾個(gè)問題，如果我是Scrapy框架的設(shè)計(jì)者，我會(huì)這么設(shè)計(jì)這個(gè)框架。
既然是通用的爬蟲框架，那用戶是不是應(yīng)該可以操作header之類的，讓我的每一個(gè)爬蟲都經(jīng)過代理，或者是設(shè)置不同的cookie。

當(dāng)當(dāng)當(dāng)，所以就有了中間件。middlewares.py
我們來看看Scrapy生成的是什么樣的。

既然是入門，我們肯定是先關(guān)心我們需要的?？吹诙垐D。有這么幾個(gè)干方法process_request,process_response,process_exception
處理request,response,exception。很好，我們就要這幾個(gè)東西。

我們可以這么理解，我們的爬蟲爬到的每一個(gè)頁面，都會(huì)經(jīng)過這些中間件。

來看看架構(gòu)圖

所以我們的數(shù)據(jù)是經(jīng)過每一個(gè)中間件。然后中間件來決定去留。

然后我們來想想具體process_request下的情況。

第一種，我修改了代理，但是我只是改了代理，我還需要把這個(gè)數(shù)據(jù)繼續(xù)下去。返回None

第二種，這個(gè)已經(jīng)處理好了，現(xiàn)在我需要想直接把數(shù)據(jù)發(fā)給spider了，這個(gè)時(shí)候，我們就需要返回一個(gè)response了。

第三種，我想要重新調(diào)度我的request.這時(shí)候只要返回request。調(diào)度器會(huì)終止process_request，然后用這個(gè)request重新開始。

第四種，這個(gè)數(shù)據(jù)我直接丟棄了，不想用了。直接raise一個(gè)IgnoreRequest，也就是，如果你不處理這個(gè)異常，這異常就直接扔了。當(dāng)然，你還可以選擇在process_exception去處理這個(gè)異常

Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法

初步理解了中間件，我們來說說items
在spider處理完數(shù)據(jù)以后，寫入item中，然后就來到了這兒。
scrapy生成的代碼

怎么用呢。舉個(gè)例子，我在spider中需要存儲(chǔ)url。于是我在這個(gè)文件中就寫入
url = scrapy.Field
接著在spider中生成這個(gè)item。然后將item["url"] = url，在處理完了以后。yield item
完成

這個(gè)數(shù)據(jù)呢，就會(huì)交給pipelines來處理

接著，我們來看看pipelines

我們和剛才一樣，思考一下，數(shù)據(jù)拿過來有幾種可能。

數(shù)據(jù)不是我的，我不處理。OK，我直接返回itme

數(shù)據(jù)是我的，但是數(shù)據(jù)錯(cuò)了。扔掉。raise一個(gè)DropItem就可以了

這邊呢，如果要寫入數(shù)據(jù)庫，玩玩寫入的時(shí)間特別長，所以推薦使用Twisted來做一個(gè)異步寫入

最后。我們來看看settings

配置文件，比如是否遵守robots.txt之類的。當(dāng)然，你剛才寫的所有middlewares，pipelines。都要在這兒注冊?。。?！隨便給它一個(gè)不重復(fù)的數(shù)字就好了

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/42263.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

CrazyCodes

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3046·2023-04-25 19:45
潤生集團(tuán)2021年度業(yè)績內(nèi)部匯報(bào) | 探索·前行·創(chuàng)造

閱讀 2784·2021-11-19 09:40
eukhost：英國vps，英國獨(dú)立服務(wù)器，2核2G/30G內(nèi)存，￡10.13/月起，獨(dú)立服務(wù)器￡6

閱讀 779·2021-10-14 09:49
IIC協(xié)議詳解，附單片機(jī)軟件模擬源碼

閱讀 3034·2021-09-30 09:47
侄兒子非要搶我手機(jī)玩吃雞！但他才六歲菜的很。我花五分鐘寫了個(gè)游戲，他玩了一天。

閱讀 2393·2021-09-26 09:55
虛擬主機(jī)如何綁定域名-如何進(jìn)行域名與虛擬主機(jī)綁定？

閱讀 1292·2021-09-22 16:01
【jQuery學(xué)習(xí)日記】jQuery實(shí)現(xiàn)滾動(dòng)動(dòng)畫

閱讀 2864·2019-08-30 14:19
react 國際化了解一下

閱讀 762·2019-08-29 16:44

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

scrapy入門

相關(guān)文章

Scrapy學(xué)習(xí)（二）入門

**基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建**

Scrapy入門程序點(diǎn)評(píng)

scrapy入門：豆瓣電影top250爬取

scrapy 自學(xué)入門demo分享

發(fā)表評(píng)論

0條評(píng)論

CrazyCodes

男|高級(jí)講師

TA的文章

tensorflow

潤生集團(tuán)2021年度業(yè)績內(nèi)部匯報(bào) | 探索·前行·創(chuàng)造

eukhost：英國vps，英國獨(dú)立服務(wù)器，2核2G/30G內(nèi)存，￡10.13/月起，獨(dú)立服務(wù)器￡6

IIC協(xié)議詳解，附單片機(jī)軟件模擬源碼

侄兒子非要搶我手機(jī)玩吃雞！但他才六歲菜的很。我花五分鐘寫了個(gè)游戲，他玩了一天。

虛擬主機(jī)如何綁定域名-如何進(jìn)行域名與虛擬主機(jī)綁定？

【jQuery學(xué)習(xí)日記】jQuery實(shí)現(xiàn)滾動(dòng)動(dòng)畫

react 國際化了解一下

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

scrapy入門

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！