利用 scrapy 集成社區(qū)爬蟲功能

Yangyang 發(fā)布于2019-06-26 16:57 / 1393人閱讀

摘要：為了方便用戶展示自己的社區(qū)資料，雨點兒網(wǎng)中增加了一個社區(qū)爬蟲功能。方案使用運行爬蟲鑒于項目當前的架構(gòu)，準備使用來執(zhí)行異步爬蟲。可以同時執(zhí)行多個爬蟲，最大進程數(shù)可配，防止系統(tǒng)過載。尾歡迎使用我們的爬蟲功能來收集社交資料。

序

社區(qū)活躍度或者貢獻越來越受到重視，往往會作為獲得工作或者承接項目的加分項。為了方便用戶展示自己的社區(qū)資料，雨點兒網(wǎng)中增加了一個社區(qū)爬蟲功能。

當前只爬取了用戶主頁上一些簡單的信息，如果有需求請?zhí)岬轿覀兊捻椖孔h題中

效果如下：

功能實現(xiàn)

代碼放在了github上，源碼

如圖所示，在之前的架構(gòu)上(http://segmentfault.com/a/1190000003808733)，我增加了橙色虛線框內(nèi)的部分，包括：

scrapyd：一個用于運行爬蟲任務(wù)的webservice

spiders：使用scrapy框架實現(xiàn)的爬蟲

mongo：存放爬取的數(shù)據(jù)

使用scrapy框架

scrapy是一個python爬蟲框架，想要快速實現(xiàn)爬蟲推薦使用這個。

可以參考如下資料自行學(xué)習(xí)：

官方文檔和官方例子

一個簡單明了的入門博客，注意：博客中scrapy的安裝步驟可以簡化，直接使用 pip install scrapy，安裝過程中可能會缺少幾個lib，ubuntu使用 apt-get install libffi-dev libxml2-dev libxslt1-dev -y

使用mongodb存儲數(shù)據(jù)

mongo非常適合存儲爬蟲數(shù)據(jù)，支持異構(gòu)數(shù)據(jù)。這意味著你可以隨時改變爬蟲策略抓取不同的數(shù)據(jù)，而不用擔心會和以前的數(shù)據(jù)沖突（使用sql就需要蛋疼的修改表結(jié)構(gòu)了）。

通過scrapy的pipline來集成mongo，非常方便。

安裝mongo

apt-get install mongodb
pip install pymongo

使用xpath提取頁面數(shù)據(jù)

在編寫爬蟲的過程中需要使用xpath表達式來提取頁面數(shù)據(jù)，在chrome中可以使用XPath Helper來定位元素，非常方便。使用方法：

打開XPath Helper插件

鼠標點擊一下頁面，按住shift鍵，把鼠標移動到需要選取的元素上，插件會將該元素標記為黃色，并給出對應(yīng)的xpath表達式，如下圖：

在爬蟲程序中使用這個表達式selector.xpath(..../text()").extract()

使用scrapyd把爬蟲集成到系統(tǒng)中

編寫好爬蟲后，我門可以通過執(zhí)行scrapy crawl spidername命令來運行爬蟲程序，但這還不夠。

通常我們通過手動或者定時任務(wù)(cron)來執(zhí)行爬蟲，而這里我們需要通過web應(yīng)用來觸發(fā)爬蟲。即，當用戶更新綁定的社交賬號時，去執(zhí)行一次爬蟲。來分析一下：

爬蟲執(zhí)行過程中會阻塞當前進程，為了不阻塞用戶請求，必須通過異步的方式來運行爬蟲。

可能有多個用戶同時更新資料，這就要求能夠同時執(zhí)行多個爬蟲，并且要保證系統(tǒng)不會超載。

可以擴展成分布式的爬蟲。

方案1：使用celery運行爬蟲

鑒于項目當前的架構(gòu)，準備使用celery來執(zhí)行異步爬蟲。但是碰到了兩個問題：

scrapy框架下，需要在scrapy目錄下執(zhí)行爬蟲，否則無法獲取到settings，這個用起來有點別扭，不過還能解決。

celery中反復(fù)運行scrapy的爬蟲會報錯：raise error.ReactorNotRestartable()。原因是scrapy用的twisted調(diào)度框架，不可以在進程中重啟。

stackoverflow上有討論過這個問題，嘗試了一下，搞不定，放棄這個方案。如果你有解決這個問題的方法，期待分享:)

方案2：使用scrapyd

scrapy文檔中提到了可以使用scrapyd來部署，scrapyd是一個用于運行scrapy爬蟲的webservice，使用者能夠通過http請求來運行爬蟲。

你只需要使用scrapyd-client將爬蟲發(fā)布到scrapyd中，然后通過如下命令就可以運行爬蟲程序。

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2
{"status": "ok", "jobid": "26d1b1a6d6f111e0be5c001e648c57f8"}

這意味什么：

爬蟲應(yīng)用和自己的web應(yīng)用完全解耦，只有一個http接口。

由于使用http接口，爬蟲可以放在任何能夠被訪問的主機上運行。一個簡易的分布式爬蟲，不是嗎？

scrapyd使用sqlite隊列來保存爬蟲任務(wù)，實現(xiàn)異步執(zhí)行。

scrapyd可以同時執(zhí)行多個爬蟲，最大進程數(shù)可配，防止系統(tǒng)過載。

尾

歡迎使用我們的爬蟲功能來收集社交資料。

使用方法

成為雨點兒網(wǎng)用戶，進入用戶主頁，點擊編輯按鈕

填寫社交賬號，點擊更新按鈕

爬蟲會在幾秒內(nèi)完成工作，刷新個人主頁就能看到你的社區(qū)資料了，你也可以把個人主頁鏈接附在電子簡歷中喲:)

云服務(wù)器 GPU云服務(wù)器 scrapy 爬蟲爬蟲scrapy scrapy爬蟲 scrapy登錄爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/18799.html

發(fā)表評論

登陸后可評論

0條評論

Yangyang

男|高級講師

我要關(guān)注我要私信

TA的文章

【C語言趣味教程】typedef 真爽不爽不要玩 | 初識結(jié)構(gòu)體

閱讀 1916·2021-11-25 09:43
主機數(shù)主機位怎么求-主機地址數(shù)如何計算？

閱讀 15878·2021-09-22 15:11
JQuery+css3實現(xiàn)滑動開關(guān)效果

閱讀 2740·2019-08-30 13:19
CSS魔法堂：Absolute Positioning就這個樣

閱讀 2120·2019-08-30 12:54
box-shadow常用技巧總結(jié)

閱讀 1966·2019-08-29 13:06
jQuery驗證年齡

閱讀 1057·2019-08-26 14:07
js中會改變原數(shù)組的一些方法

閱讀 1711·2019-08-26 10:47
對列布局columns的理解

閱讀 3169·2019-08-26 10:41

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

利用 scrapy 集成社區(qū)爬蟲功能

相關(guān)文章

15個Python庫，讓你學(xué)習(xí)數(shù)據(jù)科學(xué)更輕松

【Sasila】一個簡單易用的爬蟲框架

Scrapy的架構(gòu)初探

Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy

發(fā)表評論

0條評論

Yangyang

男|高級講師

TA的文章

【C語言趣味教程】typedef 真爽不爽不要玩 | 初識結(jié)構(gòu)體

主機數(shù)主機位怎么求-主機地址數(shù)如何計算？

JQuery+css3實現(xiàn)滑動開關(guān)效果

CSS魔法堂：Absolute Positioning就這個樣

box-shadow常用技巧總結(jié)

jQuery驗證年齡

js中會改變原數(shù)組的一些方法

對列布局columns的理解

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

利用 scrapy 集成社區(qū)爬蟲功能

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！