異步爬蟲和同步單線程爬蟲對比

Tecode 發(fā)布于2022-06-28 18:59 / 2080人閱讀

摘要：通常需要用爬蟲的場景都需要并發(fā)或并行，也就離不開進(jìn)程線程或協(xié)程，而本示例就是一個(gè)簡單的異步爬蟲與同步爬蟲的對比。

通常需要用爬蟲的場景都需要并發(fā)或并行，也就離不開進(jìn)程、線程或協(xié)程，而本示例就是一個(gè)簡單的異步爬蟲與同步爬蟲的對比。

代碼
異步爬蟲代碼：

import asyncio
import json
import aiohttp

from typing import List Optional
from datetime import datetime

class Spider:

def __init__(self urls: List[str] headers: Optional[dict] = None cookie: Optional[str] = None):
    self.urls = urls
    self.headers = headers
    self.cookies = None if cookie else {cookie: cookie}

    self.loop = asyncio.get_event_loop()

    self.result = list()

def excute(self):
    self.loop.run_until_complete(self.spiders())
    self.loop.close()

    with open(main.json w) as f:
        json.dump(self.result f)

async def spiders(self):
    semaphore = asyncio.Semaphore(250)
    spider = [self.run(url semaphore) for url in self.urls]
    await asyncio.wait(spider)

async def run(self url semaphore):
    async with semaphore:
        async with aiohttp.ClientSession(loop=self.loop headers=self.headers cookies=self.cookies) as session:
            async with session.get(url) as response:
                text = await response.text()
                self.result.append(json.loads(text))

if name == "__main__":

urls = []
for i in range(1 1001):
    urls.append(fhttp://httpbin.org/anything?page={i})
s = Spider(urls)
start = datetime.now()
s.excute()
end = datetime.now()
print((end - start).total_seconds() "秒")

同步爬蟲代碼：

import json
import requests

from datetime import datetime

if name == "__main__":

start = datetime.now()
result = []
for i in range(1 1001):
    url = fhttp://httpbin.org/anything?page={i}
    result.append(requests.get(url).json())

with open(test.json w) as f:
    json.dump(result f)

end = datetime.now()
print((end - start).total_seconds() "秒")

結(jié)果
異步
20.837937 秒
同步（我實(shí)在沒想到會(huì)耗時(shí)這么久...）
650.712683 秒
從結(jié)果來看，在爬取1000條鏈接的場景中，異步爬蟲效率是同步爬蟲的30多倍。

資源消耗相對較小，效率提升卻如此巨大，所以在以后的爬蟲中，我就優(yōu)先考慮異步了。

有興趣的朋友，可以嘗試一下與多線程和多進(jìn)程的效率對比，請?jiān)诒举N貼出對比結(jié)果。

GPU云服務(wù)器云服務(wù)器爬蟲多線程多線程爬蟲多線程網(wǎng)頁爬蟲同步和異步

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/125892.html

發(fā)表評論

登陸后可評論

0條評論

Tecode

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow指定cpu

閱讀 3771·2023-04-25 20:09
香港云服務(wù)器這幾天網(wǎng)絡(luò)有沒有丟包嚴(yán)重

閱讀 3920·2022-06-28 19:00
EPC單機(jī)掛載UHOST-RSSD高速磁盤

閱讀 3298·2022-06-28 19:00
GPU活動(dòng)使用TIPS

閱讀 3321·2022-06-28 19:00
為科研量身定制，UCloud推出“云極”高性能計(jì)算EPC

閱讀 3461·2022-06-28 19:00
UCloud 2021年終特惠已開啟，快杰O型ARM服務(wù)器上海節(jié)點(diǎn)重磅上線！

閱讀 3095·2022-06-28 19:00
“懂運(yùn)維、精運(yùn)營、重服務(wù)” UCloud發(fā)布混合云多云管理平臺UCMP

閱讀 3366·2022-06-28 19:00
軟件定義存儲(chǔ) ，UCloudStor存儲(chǔ)?體機(jī)強(qiáng)勢登場

閱讀 2888·2022-06-28 19:00

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

異步爬蟲和同步單線程爬蟲對比

相關(guān)文章

關(guān)于Python爬蟲種類、法律、輪子的一二三

《Node.js設(shè)計(jì)模式》基于回調(diào)的異步控制流

Python爬蟲--高性能的異步爬蟲（五）

面向?qū)ο蟮姆植际?em>爬蟲框架XXL-CRAWLER

Node_模塊

發(fā)表評論

0條評論

Tecode

男|高級講師

TA的文章

tensorflow指定cpu

香港云服務(wù)器這幾天網(wǎng)絡(luò)有沒有丟包嚴(yán)重

EPC單機(jī)掛載UHOST-RSSD高速磁盤

GPU活動(dòng)使用TIPS

為科研量身定制，UCloud推出“云極”高性能計(jì)算EPC

UCloud 2021年終特惠已開啟，快杰O型ARM服務(wù)器上海節(jié)點(diǎn)重磅上線！

“懂運(yùn)維、精運(yùn)營、重服務(wù)” UCloud發(fā)布混合云多云管理平臺UCMP

軟件定義存儲(chǔ) ，UCloudStor存儲(chǔ)?體機(jī)強(qiáng)勢登場

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

異步爬蟲和同步單線程爬蟲對比

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！