WebMagic之Spider進階

Zhuxy 發(fā)布于2019-08-16 10:30 / 1444人閱讀

摘要：實際運行中就發(fā)現(xiàn)了一個有趣的現(xiàn)象。爬蟲抓取的速度超過了我用給它推送的速度，導(dǎo)致爬蟲從獲取不到同時此刻線程池所有線程都已停止。如何管理設(shè)置，避免返回，且沒有工作線程時退出循環(huán)。退出檢測循環(huán)說明結(jié)束了，手動調(diào)用來是退出調(diào)度循環(huán)，終止爬蟲。

Webmagic源碼分析系列文章，請看這里

從解決問題開始吧。

問題描述：由于數(shù)據(jù)庫的數(shù)據(jù)量特別大，而且公司沒有搞主從讀寫分離，導(dǎo)致從數(shù)據(jù)庫讀取數(shù)據(jù)比較慢，而我需要從數(shù)據(jù)庫查詢出特定標識來拼url去抓。實際運行中就發(fā)現(xiàn)了一個有趣的現(xiàn)象。爬蟲抓取的速度超過了我用scheduler給它推送url的速度，導(dǎo)致爬蟲從scheduler獲取不到url,同時此刻線程池所有線程都已停止。這個時候，根據(jù)Spider的機制是要退出調(diào)度循環(huán)的，從而終止Spider。從下面代碼可以看出：(取自Spider的run方法):

        while ((!(Thread.currentThread().isInterrupted()))
                && (this.stat.get() == 1)) {
            Request request = this.scheduler.poll(this);
            if (request == null) {
                if ((this.threadPool.getThreadAlive() == 0)
                        && (this.exitWhenComplete)) {
                    break;
                }

                waitNewUrl();
            } else {
                Request requestFinal = request;
                this.threadPool.execute(new Runnable(requestFinal) {
                    public void run() {
                        try {
                            Spider.this.processRequest(this.val$requestFinal);
                            Spider.this.onSuccess(this.val$requestFinal);
                        } catch (Exception e) {
                            Spider.this.onError(this.val$requestFinal);
                            Spider.this.logger.error("process request "
                                    + this.val$requestFinal + " error", e);
                        } finally {
                            Spider.this.pageCount.incrementAndGet();
                            Spider.this.signalNewUrl();
                        }
                    }
                });
            }
        }
        this.stat.set(2);

        if (this.destroyWhenExit)
            close();

上述中，由于Spider默認exitWhenComplete=true,而this.threadPool.getThreadAlive() == 0也在我剛剛描述的場景中應(yīng)驗了，所以此時Spider會break退出調(diào)度循環(huán)，進而終止。

那么如何解決呢？我們應(yīng)該注意到了exitWhenComplete這個標志，Spider是開放了這個標志的setter的，那么我們可以通過它來實現(xiàn)自定義的管理。如何管理?

                //設(shè)置exitWhenComplete=false，避免scheduler.poll返回null，且沒有工作線程時退出循環(huán)。
                spider.setExitWhenComplete(false);
                spider.start();
                //分頁循環(huán)推送url
                int i=2;
                while(i<=page.getTotalPages()){
                    page=storeManager.findPage(c, i, 50);
                    for(Store s:page.getResult()){
                        if(StringUtils.isNotBlank(s.getSkipLink()) && s.getSkipLink().contains("?id=")){
                            Request request=new Request(s.getSkipLink());
                            scheduler.push(request,spider);
                        }
                    }
                    i++;
                }
                int nullCount=0;
                //分5次重試來確保真的沒有了。
                while(nullCount<5){
                    //如果沒有活動線程，我們就查看scheduler中是否有request,如果沒有，計數(shù)+1,之后休眠再重新循環(huán)。
                    if(spider.getThreadAlive()==0){
                        Request req=scheduler.poll(spider);
                        if(req==null){
                            nullCount++;
                        }else{
                            if(nullCount>0){
                                nullCount=0;
                            }
                            scheduler.push(req, spider);
                        }
                    }
                    HttpReqUtil.sleep(5*60*1000);
                }
                //退出檢測循環(huán)說明結(jié)束了，手動調(diào)用stop()來是Spider退出調(diào)度循環(huán)，終止爬蟲。
                spider.stop();

其實，如果你想Spider池化，也可以采用這個思路來。

GPU云服務(wù)器云服務(wù)器 webmagic webmagic 爬蟲 Spider web?spider

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/69916.html

發(fā)表評論

登陸后可評論

0條評論

Zhuxy

男|高級講師

我要關(guān)注我要私信

TA的文章

小小碼民刷算法——反轉(zhuǎn)字符串

閱讀 3052·2021-11-16 11:45
寶塔網(wǎng)站誤刪除如何恢復(fù)?寶塔網(wǎng)站刪除恢復(fù)備份的方法

閱讀 5427·2021-09-22 10:57
??數(shù)據(jù)科學(xué)-Pandas、Numpy、Matplotlib秘籍之精煉總結(jié)

閱讀 1831·2021-09-08 09:36
使用STM32CubeMX初始化STM32F031F6Px系列

閱讀 1717·2021-09-02 15:40
騰訊云-云產(chǎn)品限時秒殺，爆款1核2G云服務(wù)器，首年99元，企業(yè)新用戶新購2核4G僅454一年！須要下

閱讀 2566·2021-07-26 23:38
手機H5 web調(diào)試利器——WEINRE (WEb INspector REmote) 安卓手機

閱讀 1305·2019-08-30 15:55
angular 組件通信

閱讀 993·2019-08-30 15:54
JavaScript 優(yōu)雅的實現(xiàn)方式包含你可能不知道的知識點

閱讀 1279·2019-08-29 14:06

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

WebMagic之Spider進階

相關(guān)文章

**爬蟲框架WebMagic源碼分析系列目錄**

爬蟲框架Webmagic源碼分析之Spider

**爬蟲框架WebMagic源碼分析之Scheduler**

**爬蟲框架WebMagic源碼分析之Downloader**

webmagic爬取分頁列表數(shù)據(jù)

發(fā)表評論

0條評論

Zhuxy

男|高級講師

TA的文章

小小碼民刷算法——反轉(zhuǎn)字符串

寶塔網(wǎng)站誤刪除如何恢復(fù)?寶塔網(wǎng)站刪除恢復(fù)備份的方法

??數(shù)據(jù)科學(xué)-Pandas、Numpy、Matplotlib秘籍之精煉總結(jié)

使用STM32CubeMX初始化STM32F031F6Px系列

騰訊云-云產(chǎn)品限時秒殺，爆款1核2G云服務(wù)器，首年99元，企業(yè)新用戶新購2核4G僅454一年！須要下

手機H5 web調(diào)試利器——WEINRE (WEb INspector REmote) 安卓手機

angular 組件通信

JavaScript 優(yōu)雅的實現(xiàn)方式包含你可能不知道的知識點

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

WebMagic之Spider進階

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！