爬蟲(chóng)數(shù)據(jù)庫(kù)一些簡(jiǎn)單的設(shè)計(jì)邏輯

edagarli 發(fā)布于2019-07-31 10:30 / 581人閱讀

摘要：所以要設(shè)計(jì)條隊(duì)列，保存商品信息。數(shù)據(jù)更新問(wèn)題有新商品進(jìn)來(lái)，直接插入即可，如果是舊商品，那要不要更新數(shù)據(jù)庫(kù)里的內(nèi)容呢一般來(lái)說(shuō)是可以更新的，但有種情況例外，就是你的數(shù)據(jù)庫(kù)會(huì)有人去編輯的情況。

場(chǎng)景：爬取某商城的部分商品。

隊(duì)列設(shè)計(jì)

這里至少需要爬取2種資源，一種是商品列表，一種是商品信息。
所以要設(shè)計(jì)1條隊(duì)列，保存商品信息URL。

爬蟲(chóng)1定期爬前N個(gè)列表頁(yè) URL，把里面的商品信息URL爬下來(lái)，保存到隊(duì)列里。

爬蟲(chóng)2定期從隊(duì)列中抽出商品信息URL，爬取商品信息，爬完后把該URL移出隊(duì)列。

所以呢，簡(jiǎn)單來(lái)說(shuō)，只要有2張表就行了，一張保存隊(duì)列信息，一張保存商品信息。

何時(shí)停止問(wèn)題

為了避免每次都把所有商品爬一遍，就要在適當(dāng)?shù)臅r(shí)候停止。
爬列表頁(yè)的時(shí)候，一般是設(shè)定只爬前 N 頁(yè)。
爬商品信息URL的時(shí)候，一般是先檢查這個(gè)商品是否存在，不存在就入隊(duì)，存在的話(huà)，就表示接下來(lái)都是舊數(shù)據(jù)了，可以停止了。

當(dāng)然有種情況，就是有些舊的商品，會(huì)被人為地置頂，或者排到前面來(lái)。

這時(shí)候就要設(shè)置一個(gè)值 M，每次最多爬前 M 個(gè)，多了不爬。

數(shù)據(jù)更新問(wèn)題：

有新商品進(jìn)來(lái)，直接插入即可，如果是舊商品，那要不要更新數(shù)據(jù)庫(kù)里的內(nèi)容呢？
一般來(lái)說(shuō)是可以更新的，但有種情況例外，就是你的數(shù)據(jù)庫(kù)會(huì)有人去編輯的情況。

如果你的數(shù)據(jù)庫(kù)有專(zhuān)人編輯，那么最好不要更新舊商品，因?yàn)闀?huì)覆蓋掉編輯的內(nèi)容。并且，數(shù)據(jù)表要采用軟刪除的方式，避免前面的人剛刪除了數(shù)據(jù)，你的爬蟲(chóng)又把數(shù)據(jù)寫(xiě)進(jìn)去了。

云服務(wù)器 GPU云服務(wù)器簡(jiǎn)單的爬蟲(chóng) 簡(jiǎn)單的爬蟲(chóng)程序最簡(jiǎn)單的爬蟲(chóng) python簡(jiǎn)單的爬蟲(chóng)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/43930.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

edagarli

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

#yyds干貨盤(pán)點(diǎn)# 前端基礎(chǔ)知識(shí)面試集錦2

閱讀 3169·2021-11-22 15:29
電子設(shè)備及半導(dǎo)體測(cè)量之“納米結(jié)構(gòu)的低級(jí)測(cè)量”技術(shù)說(shuō)明

閱讀 1831·2021-10-12 10:11
指南者stm32單片機(jī)keil5新建工程和組織目錄的那些事

閱讀 1889·2021-09-04 16:45
Namesilo：域名購(gòu)買(mǎi)及使用教程（附 Namesilo 優(yōu)惠碼）

閱讀 2441·2021-08-25 09:39
ION：2周年促銷(xiāo)，VPS年付8折優(yōu)惠，可選洛杉磯/圣何塞cn2 gia/新加坡cn2

閱讀 2858·2021-08-18 10:20
edgenat：全新“韓國(guó)原生IP”VPS，全場(chǎng)8折促銷(xiāo)，韓國(guó)CN2/中國(guó)香港CN2/洛杉磯CN2

閱讀 2614·2021-08-11 11:17
SASS入門(mén)

閱讀 509·2019-08-30 12:49
前端碎語(yǔ)（6）

閱讀 3389·2019-08-30 12:49

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)數(shù)據(jù)庫(kù)一些簡(jiǎn)單的設(shè)計(jì)邏輯

相關(guān)文章

從0-1打造最強(qiáng)性能Scrapy爬蟲(chóng)集群

爬蟲(chóng) - 收藏集 - 掘金

一只node爬蟲(chóng)的升級(jí)打怪之路

nodeJS實(shí)現(xiàn)基于Promise爬蟲(chóng) 定時(shí)發(fā)送信息到指定郵件

發(fā)表評(píng)論

0條評(píng)論

edagarli

男|高級(jí)講師

TA的文章

#yyds干貨盤(pán)點(diǎn)# 前端基礎(chǔ)知識(shí)面試集錦2

電子設(shè)備及半導(dǎo)體測(cè)量之“納米結(jié)構(gòu)的低級(jí)測(cè)量”技術(shù)說(shuō)明

指南者stm32單片機(jī)keil5新建工程和組織目錄的那些事

Namesilo：域名購(gòu)買(mǎi)及使用教程（附 Namesilo 優(yōu)惠碼）

ION：2周年促銷(xiāo)，VPS年付8折優(yōu)惠，可選洛杉磯/圣何塞cn2 gia/新加坡cn2

edgenat：全新“韓國(guó)原生IP”VPS，全場(chǎng)8折促銷(xiāo)，韓國(guó)CN2/中國(guó)香港CN2/洛杉磯CN2

SASS入門(mén)

前端碎語(yǔ)（6）

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)數(shù)據(jù)庫(kù)一些簡(jiǎn)單的設(shè)計(jì)邏輯

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！