摘要:所以要設(shè)計(jì)條隊(duì)列,保存商品信息。數(shù)據(jù)更新問(wèn)題有新商品進(jìn)來(lái),直接插入即可,如果是舊商品,那要不要更新數(shù)據(jù)庫(kù)里的內(nèi)容呢一般來(lái)說(shuō)是可以更新的,但有種情況例外,就是你的數(shù)據(jù)庫(kù)會(huì)有人去編輯的情況。
場(chǎng)景:爬取某商城的部分商品。
隊(duì)列設(shè)計(jì)這里至少需要爬取2種資源,一種是商品列表,一種是商品信息。
所以要設(shè)計(jì)1條隊(duì)列,保存商品信息URL。
爬蟲(chóng)1定期爬前N個(gè)列表頁(yè) URL,把里面的商品信息URL爬下來(lái),保存到隊(duì)列里。
爬蟲(chóng)2定期從隊(duì)列中抽出商品信息URL,爬取商品信息,爬完后把該URL移出隊(duì)列。
所以呢,簡(jiǎn)單來(lái)說(shuō),只要有2張表就行了,一張保存隊(duì)列信息,一張保存商品信息。
何時(shí)停止問(wèn)題為了避免每次都把所有商品爬一遍,就要在適當(dāng)?shù)臅r(shí)候停止。
爬列表頁(yè)的時(shí)候,一般是設(shè)定只爬前 N 頁(yè)。
爬商品信息URL的時(shí)候,一般是先檢查這個(gè)商品是否存在,不存在就入隊(duì),存在的話(huà),就表示接下來(lái)都是舊數(shù)據(jù)了,可以停止了。
當(dāng)然有種情況,就是有些舊的商品,會(huì)被人為地置頂,或者排到前面來(lái)。
這時(shí)候就要設(shè)置一個(gè)值 M,每次最多爬前 M 個(gè),多了不爬。
數(shù)據(jù)更新問(wèn)題:有新商品進(jìn)來(lái),直接插入即可,如果是舊商品,那要不要更新數(shù)據(jù)庫(kù)里的內(nèi)容呢?
一般來(lái)說(shuō)是可以更新的,但有種情況例外,就是你的數(shù)據(jù)庫(kù)會(huì)有人去編輯的情況。
如果你的數(shù)據(jù)庫(kù)有專(zhuān)人編輯,那么最好不要更新舊商品,因?yàn)闀?huì)覆蓋掉編輯的內(nèi)容。并且,數(shù)據(jù)表要采用軟刪除的方式,避免前面的人剛刪除了數(shù)據(jù),你的爬蟲(chóng)又把數(shù)據(jù)寫(xiě)進(jìn)去了。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/43930.html
摘要:包括爬蟲(chóng)編寫(xiě)爬蟲(chóng)避禁動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)抓取部署分布式爬蟲(chóng)系統(tǒng)監(jiān)測(cè)共六個(gè)內(nèi)容,結(jié)合實(shí)際定向抓取騰訊新聞數(shù)據(jù),通過(guò)測(cè)試檢驗(yàn)系統(tǒng)性能。 1 項(xiàng)目介紹 本項(xiàng)目的主要內(nèi)容是分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。主要有以下幾個(gè)部分來(lái)介紹: (1)深入分析網(wǎng)絡(luò)新聞爬蟲(chóng)的特點(diǎn),設(shè)計(jì)了分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)爬取策略、抓取字段、動(dòng)態(tài)網(wǎng)頁(yè)抓取方法、分布式結(jié)構(gòu)、系統(tǒng)監(jiān)測(cè)和數(shù)據(jù)存儲(chǔ)六個(gè)關(guān)鍵功能。 (2)結(jié)合程序代碼分解說(shuō)...
摘要:在這之前,還是有必要對(duì)一些概念超輕量級(jí)反爬蟲(chóng)方案后端掘金前言爬蟲(chóng)和反爬蟲(chóng)日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲(chóng)修煉之道——從網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專(zhuān)題:爬蟲(chóng)修煉之道 上篇 爬蟲(chóng)修煉之道——編寫(xiě)一個(gè)爬取多頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)主要講解了如何使用python編寫(xiě)一個(gè)可以下載多頁(yè)面的爬蟲(chóng),如何將相對(duì)URL轉(zhuǎn)為絕對(duì)URL,如何限速,...
摘要:我是一個(gè)知乎輕微重度用戶(hù),之前寫(xiě)了一只爬蟲(chóng)幫我爬取并分析它的數(shù)據(jù),我感覺(jué)這個(gè)過(guò)程還是挺有意思,因?yàn)檫@是一個(gè)不斷給自己創(chuàng)造問(wèn)題又去解決問(wèn)題的過(guò)程。所以這只爬蟲(chóng)還有登陸知乎搜索題目的功能。 我一直覺(jué)得,爬蟲(chóng)是許多web開(kāi)發(fā)人員難以回避的點(diǎn)。我們也應(yīng)該或多或少的去接觸這方面,因?yàn)榭梢詮呐老x(chóng)中學(xué)習(xí)到web開(kāi)發(fā)中應(yīng)當(dāng)掌握的一些基本知識(shí)。而且,它還很有趣。 我是一個(gè)知乎輕微重度用戶(hù),之前寫(xiě)了一只爬...
摘要:也就是說(shuō),我的篇文章的請(qǐng)求對(duì)應(yīng)個(gè)實(shí)例,這些實(shí)例都請(qǐng)求完畢后,執(zhí)行以下邏輯他的目的在于對(duì)每一個(gè)返回值這個(gè)返回值為單篇文章的內(nèi)容,進(jìn)行方法處理。 英國(guó)人Robert Pitt曾在Github上公布了他的爬蟲(chóng)腳本,導(dǎo)致任何人都可以容易地取得Google Plus的大量公開(kāi)用戶(hù)的ID信息。至今大概有2億2千5百萬(wàn)用戶(hù)ID遭曝光。 亮點(diǎn)在于,這是個(gè)nodejs腳本,非常短,包括注釋只有71行。 ...
閱讀 3169·2021-11-22 15:29
閱讀 1831·2021-10-12 10:11
閱讀 1889·2021-09-04 16:45
閱讀 2441·2021-08-25 09:39
閱讀 2858·2021-08-18 10:20
閱讀 2614·2021-08-11 11:17
閱讀 509·2019-08-30 12:49
閱讀 3389·2019-08-30 12:49