摘要:新特性系統(tǒng)底層重構,規(guī)范包名采集線程白名單過濾優(yōu)化,避免冗余失敗重試增強渲染方式采集能力,原生新提供,支持以方式采集頁面數(shù)據(jù)支持采集非頁面,如接口等,直接輸出響應數(shù)據(jù)選擇即可簡介是一個分布式爬蟲框架。默認提供單機版爬蟲。
v1.2.2 新特性
1、系統(tǒng)底層重構,規(guī)范包名;
2、采集線程白名單過濾優(yōu)化,避免冗余失敗重試;
3、增強JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum + phantomjs" 方式采集頁面數(shù)據(jù);
4、支持采集非Web頁面,如JSON接口等,直接輸出響應數(shù)據(jù);選擇 "NonPageParser" 即可;
簡介XXL-CRAWLER 是一個分布式爬蟲框架。一行代碼開發(fā)一個分布式爬蟲,擁有"多線程、異步、IP動態(tài)代理、分布式、JS渲染"等特性;
特性1、簡潔:API直觀簡潔,可快速上手;
2、輕量級:底層實現(xiàn)僅強依賴jsoup,簡潔高效;
3、模塊化:模塊化的結構設計,可輕松擴展
4、面向對象:支持通過注解,方便的映射頁面數(shù)據(jù)到PageVO對象,底層自動完成PageVO對象的數(shù)據(jù)抽取和封裝返回;單個頁面支持抽取一個或多個PageVO
5、多線程:線程池方式運行,提高采集效率;
6、分布式支持:通過擴展 "RunData" 模塊,并結合Redis或DB共享運行數(shù)據(jù)可實現(xiàn)分布式。默認提供LocalRunData單機版爬蟲。
7、JS渲染:通過擴展 "PageLoader" 模塊,支持采集JS動態(tài)渲染數(shù)據(jù)。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多種實現(xiàn),支持自由擴展其他實現(xiàn)。
8、失敗重試:請求失敗后重試,并支持設置重試次數(shù);
9、代理IP:對抗反采集策略規(guī)則WAF;
10、動態(tài)代理:支持運行時動態(tài)調(diào)整代理池,以及自定義代理池路由策略;
11、異步:支持同步、異步兩種方式運行;
12、擴散全站:支持以現(xiàn)有URL為起點擴散爬取整站;
13、去重:防止重復爬取;
14、URL白名單:支持設置頁面白名單正則,過濾URL;
15、自定義請求信息,如:請求參數(shù)、Cookie、Header、UserAgent輪詢、Referrer等;
16、動態(tài)參數(shù):支持運行時動態(tài)調(diào)整請求參數(shù);
17、超時控制:支持設置爬蟲請求的超時時間;
18、主動停頓:爬蟲線程處理完頁面之后進行主動停頓,避免過于頻繁被攔截;
文檔地址中文文檔
技術交流社區(qū)交流
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://m.hztianpu.com/yun/71834.html
摘要:版本新特性渲染支持渲染方式采集數(shù)據(jù),可參考爬蟲示例抽象并設計,方便自定義和擴展頁面加載邏輯,如渲染等。默認提供單機版爬蟲。渲染通過擴展模塊,支持采集動態(tài)渲染數(shù)據(jù)。原生提供快速推薦和較慢渲染兩種實現(xiàn),支持自由擴展其他實現(xiàn)。 版本新特性 1、JS渲染:支持JS渲染方式采集數(shù)據(jù),可參考 爬蟲示例6; 2、抽象并設計PageLoader,方便自定義和擴展頁面加載邏輯,如JS渲染等。底層提供 ...
摘要:面向對象的分布式爬蟲框架一簡介概述是一個面向對象的分布式爬蟲框架。分布式集群集群方式維護爬蟲爬蟲運行數(shù)據(jù),可通過或定制實現(xiàn)。 《面向對象的分布式爬蟲框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...
摘要:是一個專注于爬蟲的集成了爬蟲管理任務調(diào)度任務監(jiān)控數(shù)據(jù)分析等模塊的分布式爬蟲管理平臺,非常適合對爬蟲管理爬蟲工程化有要求的開發(fā)者及企業(yè)。從目前開源的框架來看,大部分爬蟲平臺是以為核心,因此只能支持框架的爬蟲,而不僅支持,還支持其他框架的爬蟲。 showImg(https://segmentfault.com/img/remote/1460000019143107?w=2559&h=112...
摘要:本文轉載自微信公眾號賬號,作者為海航生態(tài)科技技術研究院大數(shù)據(jù)開發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術架構應用容器化架構遷移持續(xù)發(fā)布與部署。 本文轉載自微信公眾號Docker(賬號:dockerone),作者為海航生態(tài)科技技術研究院大數(shù)據(jù)開發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術架構、應用容器化、架構遷...
摘要:為了方便用戶展示自己的社區(qū)資料,雨點兒網(wǎng)中增加了一個社區(qū)爬蟲功能。方案使用運行爬蟲鑒于項目當前的架構,準備使用來執(zhí)行異步爬蟲。可以同時執(zhí)行多個爬蟲,最大進程數(shù)可配,防止系統(tǒng)過載。尾歡迎使用我們的爬蟲功能來收集社交資料。 序 社區(qū)活躍度或者貢獻越來越受到重視,往往會作為獲得工作或者承接項目的加分項。為了方便用戶展示自己的社區(qū)資料,雨點兒網(wǎng)中增加了一個社區(qū)爬蟲功能。 當前只爬取了用戶主頁上...
閱讀 2345·2023-04-25 14:50
閱讀 1410·2021-10-13 09:50
閱讀 1933·2019-08-30 15:56
閱讀 1909·2019-08-29 15:29
閱讀 2949·2019-08-29 15:27
閱讀 3634·2019-08-29 15:14
閱讀 1254·2019-08-29 13:01
閱讀 3351·2019-08-26 14:06