摘要:如果想這樣解析頁面獲取數據有以下幾個問題職位列表最多只有頁職位關鍵信息獲取不全比如一個職位的地點應該屬于市區(qū)商區(qū)樓,這種信息只靠解析頁面是獲取不全的。
前期準備
Don"t be evil!
主要就是分析需要抓取的頁面,或許會有意外驚喜,直接找到獲取數據的接口。
首選打開拉鉤網首頁,發(fā)現一個職位至少有一個一級分類、二級分類和一個標簽。比如需要點擊查找Java相關的職位,需要找到技術、后端開發(fā),然后點擊Java,才能獲取Java相關的職位列表。
職位列表就可以得到很多的關于職位的信息了,如職位名稱、公司名稱、公司logo、所屬行政區(qū)、商區(qū)等信息,但是需要提取這些信息的時候,xpath會讓人寫的很頭疼。
如果想這樣解析頁面獲取數據有以下幾個問題:
職位列表最多只有30頁
職位關鍵信息獲取不全
比如一個職位的地點應該屬于XX市XX區(qū)XX商區(qū)XX樓,這種信息只靠解析頁面是獲取不全的。不過當點擊城市的時候,查看發(fā)送的網絡請求,可以發(fā)現一個可喜的接口,這個接口將會返回一個職位列表的json數據。
但是因為為了防止爬蟲調用這個接口,使用接口的時候必須要帶上cookie。訪問首頁的時候,會獲取部分cookie值,但是唯獨沒有SEARCH_ID這個值。
但是這個cookie不是平白無辜的產生的,想想調用這個接口的頁面入口,觀察response的header,會發(fā)現有Set-Cookie:SEARCH_ID=7587e152a3b14eec8bb0f29e774e4094; Version=1; Max-Age=86400; Expires=Sun, 26-Feb-2017 17:16:05 GMT; Path=/。
這樣前期的準備工作就完成了,可以開始編碼了。
開始編碼通過前期分析,可以發(fā)現需要做這么幾項工作:
訪問首頁和職位過濾頁面獲取cookie
帶上cookie調用接口
具體的流程:
訪問首頁,獲取所有職位的標簽
按城市調用接口,同時獲取所有cookie
保存數據
所以需要一些工具。
動態(tài)加載頁面和獲取cookie:
Selenium with Python
PhantomJS
帶上cookie調用接口:
Requests: HTTP for Humans
源碼
結果抓取的總量(已經將數據保存在mongodb中了):
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.hztianpu.com/yun/38454.html
摘要:微信知乎新浪等主流網站的模擬登陸爬取方法摘要微信知乎新浪等主流網站的模擬登陸爬取方法。先說說很難爬的知乎,假如我們想爬取知乎主頁的內容,就必須要先登陸才能爬,不然看不到這個界面。圖片描述知乎需要手機號才能注冊登陸。 微信、知乎、新浪等主流網站的模擬登陸爬取方法摘要:微信、知乎、新浪等主流網站的模擬登陸爬取方法。 網絡上有形形色色的網站,不同類型的網站爬蟲策略不同,難易程度也不一樣。從是...
摘要:爬蟲又一個爬蟲實現原文簡介小強當時不知道為啥選了這么個名字,又長又難記,導致編碼的過程中因為單詞的拼寫問題耽誤了好長時間。我是一個小強爬蟲線程數健壯說到健壯,這里主要體現在以下幾個方面應對封鎖這里我們使用動態(tài)代理來解決這個問題。 cockroach 爬蟲:又一個 java 爬蟲實現 原文 簡介 cockroach[小強] 當時不知道為啥選了這么個名字,又長又難記,導致編碼的過程中因為單...
摘要:成功爬取了拉鉤網上多個招聘崗位的具體信息后,數據可視化并得出分析結果如下從整體看,北上廣深杭這五個城市前端工程師招聘崗位,北京是遙遙領先,是深圳的兩倍,是廣州的三倍,其次到上海,深圳,杭州,廣州居末。 前前言 本文首發(fā)于 github blog 不想看爬蟲過程只想看職位錢途數據分析請看這里:前端招聘崗位分析C++招聘崗位分析JAVA招聘崗位分析PHP招聘崗位分析Python招聘崗位分析...
摘要:爬蟲爬蟲又稱網絡機器人。每天或許你都會使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內容做索引。那我萌就來探討一下網絡爬蟲吧。對后關于不僅僅可以用來做爬蟲,因為可以編程,無頭瀏覽器,可以用來自動化測試等等。 @(爬蟲)[puppeteer|] 爬蟲又稱網絡機器人。每天或許你都會使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內容做索引。現如今大數據,數據分析很火,那數據哪里來呢,...
閱讀 4156·2021-11-18 13:22
閱讀 1897·2021-11-17 09:33
閱讀 2940·2021-09-26 09:46
閱讀 1280·2021-08-21 14:11
閱讀 2956·2019-08-30 15:53
閱讀 2770·2019-08-30 15:52
閱讀 2121·2019-08-30 10:52
閱讀 1589·2019-08-29 15:30