摘要:之前接了一個活,做的功能是從智聯(lián)招聘爬取招聘信息賺了幾百塊零花錢實現(xiàn)了一個,如圖雖然比較丑,但是簡潔明了,落落大方已經(jīng)是我水平的天花板了具體功能說明就不了,大家都能看懂的。。。。智聯(lián)招聘鏈接網(wǎng)頁是這個樣子的,反爬蟲不強。
之前接了一個活,做的功能是從智聯(lián)招聘爬取招聘信息
賺了幾百塊零花錢
實現(xiàn)了一個GUI,如圖:
雖然比較丑low,但是簡潔明了,落落大方(已經(jīng)是我水平的天花板了)
具體功能說明就不了,大家都能看懂的。。。。
智聯(lián)招聘鏈接
網(wǎng)頁是這個樣子的,反爬蟲不強。
還實現(xiàn)了一個功能,就是定時發(fā)送郵件
如圖:
具體功能說明就不了,大家都能看懂的。。。。
接下來就要開源代碼了,本來想上傳文件,但是發(fā)現(xiàn)思否不支持(好像其他博客也不行。。。。。)
所以準備發(fā)到github上了。
Github鏈接呢
順便說一下思路:
網(wǎng)頁參數(shù)jl是控制地區(qū)的
#下拉列表(地區(qū)) area={ "全國": 489, "北京": 530, "上海": 538, "深圳": 765, "廣州": 763, "天津": 531, "成都": 801, "杭州": 653, "武漢": 736, "大連": 600, "南京": 635, "蘇州": 639, "西安": 854, }
kw參數(shù)就是搜索關鍵詞
https://sou.zhaopin.com/?jl=6...
def start_requests(self):發(fā)送請求
def parse(self, response):解析列表,發(fā)送子請求(為了獲取詳情)
def re_parse(self, response):解析具體內(nèi)容
最后,網(wǎng)頁時動態(tài)渲染的,所以在middleware加了一個selenium,畢竟scrapy本身不支持動態(tài)渲染。但這也破壞了scrapy的異步結(jié)構,所以,速度不是很理想,但夠用。
詳情的話,具體看代碼吧。乏了。
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/43590.html
摘要:年月日爬取,爬蟲代碼不知道是否失效文章目錄爬蟲目標具體過程源碼爬蟲目標要求搜索大數(shù)據(jù)專業(yè),爬相關公司的招聘信息。 2021年10月7日爬取,爬蟲代碼不知道是否失效 ...
摘要:智聯(lián)其實一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調(diào)版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:項目分析爬取智聯(lián)網(wǎng)站上的全國的競爭最激烈三個月內(nèi)前十的崗位。模塊專為服務器設計的核心的快速,靈活和精益的實現(xiàn)。核心代碼發(fā)起請求獲取到的內(nèi)容放到模塊遍歷是通過分析頁面結(jié)構得到的打印數(shù)據(jù)執(zhí)行就會得到如下結(jié)果。 node爬蟲 什么是爬蟲呢,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。為什么選用node呢,因為我是前端,當然要用js實現(xiàn)。 項目分析 爬取http://top.zh...
摘要:網(wǎng)頁源碼解析智聯(lián)招聘搜索列表一開始必須要解析智聯(lián)招聘搜索列表頁,從這里更方便實現(xiàn)各種深層級數(shù)據(jù)抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網(wǎng)頁源碼解析 - 智聯(lián)招聘搜索列表 一開始必須要解析智聯(lián)招聘搜索列表頁,從這里更方便實現(xiàn)各種深層級數(shù)據(jù)抓取。網(wǎng)頁地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數(shù) 智聯(lián)招聘的服務...
摘要:網(wǎng)頁源碼解析智聯(lián)招聘信息頁面根據(jù)招聘列表里面跳轉(zhuǎn)過來的詳細招聘信息頁面。巨優(yōu)信息是法國阿爾卡特朗訊公司企業(yè)通信系統(tǒng)全國金牌代理商,同時也是華為思科等國際知名品牌的核心合作伙伴。主頁是智聯(lián)招聘里唯一能夠讓企業(yè)自己定制的頁面了。 網(wǎng)頁源碼解析 - 智聯(lián)招聘信息頁面 根據(jù)招聘列表里面跳轉(zhuǎn)過來的詳細招聘信息頁面。爬蟲再根據(jù)這里進行關鍵信息提取。相比于搜索列表頁來說,這頁內(nèi)容很簡單,而我們需要的...
閱讀 737·2021-11-15 11:37
閱讀 4232·2021-09-09 09:34
閱讀 3638·2019-08-30 15:52
閱讀 2679·2019-08-29 14:03
閱讀 2919·2019-08-26 13:36
閱讀 1656·2019-08-26 12:16
閱讀 1652·2019-08-26 11:45
閱讀 3560·2019-08-23 18:41