摘要:年月日爬取,爬蟲(chóng)代碼不知道是否失效文章目錄爬蟲(chóng)目標(biāo)具體過(guò)程源碼爬蟲(chóng)目標(biāo)要求搜索大數(shù)據(jù)專(zhuān)業(yè),爬相關(guān)公司的招聘信息。
2021年10月7日爬取,爬蟲(chóng)代碼不知道是否失效
要求:搜索“大數(shù)據(jù)”專(zhuān)業(yè),爬相關(guān)公司的招聘信息。列數(shù)不少于10列,行數(shù)不少于3000 。
目標(biāo):搜索“大數(shù)據(jù)”,爬取智聯(lián)招聘 北京上海廣州深圳天津武漢西安 職位名稱(chēng),企業(yè)名稱(chēng),薪資,什么市(區(qū)),學(xué)歷要求,經(jīng)驗(yàn)要求,公司規(guī)模,公司性質(zhì),工作類(lèi)型,詳情頁(yè)鏈接https
登錄網(wǎng)站,搜索大數(shù)據(jù),右鍵查看網(wǎng)頁(yè)源代碼
Ctrl+F搜索大數(shù)據(jù)工程師,發(fā)現(xiàn)數(shù)據(jù)都在網(wǎng)頁(yè)源代碼中
基本思路有了,可用正則直接在源碼里匹配得到數(shù)據(jù),也可以打開(kāi)開(kāi)發(fā)者工具抓包分析接口用scrapy爬。這篇博客用正則表達(dá)式匹配。
pycharm響應(yīng)成功。
然后用正則寫(xiě)代碼就行了。
import reimport requestsimport timeheaders = {"User-Agent": "登陸后自己的user-agent", "Cookie":"登陸后自己的cookie" }for page in range(1,28): #北京上海廣州深圳天津武漢西安的url url=f"https://sou.zhaopin.com/?jl=854&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&p={page}" time.sleep(5) #停頓5秒 response = requests.get(url, headers=headers).text for i in range(30): #每頁(yè)有最多30條數(shù)據(jù) name = re.findall(r""matchInfo":.*?"name":"(.*?)"", response)[i] #工作名稱(chēng) companyName = re.findall(r""companyName":"(.*?)"", response)[i] cityDistrict=re.findall(r""cityDistrict":"(.*?)"",response)[i] education=re.findall(r""education":"(.*?)"",response)[i] #學(xué)歷 salary60=re.findall(r""salary60":"(.*?)"",response)[i] #薪資 workingExp=re.findall(r""workingExp":"(.*?)"",response)[i] #經(jīng)驗(yàn)要求 property=re.findall(r""property":"(.*?)"",response)[i] #公司性質(zhì) companySize=re.findall(r""companySize":"(.*?)"",response)[i] #公司規(guī)模 workType = re.findall(r""workType":"(.*?)"", response)[i] #工作類(lèi)型 positionURL=re.findall(r""positionURL":"(.*?)"",response)[i]#詳情頁(yè)鏈接 f = open("zhilian.csv", "a", encoding="utf8") f.write("{},{},{},{},{},{},{},{},{},{}/n".format(name, companyName, cityDistrict,education,salary60,workingExp,property,companySize,workType,positionURL)) f.close()
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/124522.html
摘要:智聯(lián)其實(shí)一共寫(xiě)了兩次,有興趣的可以在源碼看看,第一版的是回調(diào)版,只能一次一頁(yè)的爬取。 寫(xiě)在前面的話(huà), .......還是不寫(xiě)了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。買(mǎi)賣(mài)簡(jiǎn)歷,直接違法。三人累計(jì)販賣(mài)個(gè)人簡(jiǎn)歷萬(wàn)余份,智聯(lián)招聘由此蒙受損失近 日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。到底發(fā)生了什么??一 、為什么公司全員被抓?3月14日?qǐng)F(tuán)隊(duì)被警方帶走,有HR等非核心成員回家,但核心高管依然失...
摘要:網(wǎng)頁(yè)源碼解析智聯(lián)招聘搜索列表一開(kāi)始必須要解析智聯(lián)招聘搜索列表頁(yè),從這里更方便實(shí)現(xiàn)各種深層級(jí)數(shù)據(jù)抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網(wǎng)頁(yè)源碼解析 - 智聯(lián)招聘搜索列表 一開(kāi)始必須要解析智聯(lián)招聘搜索列表頁(yè),從這里更方便實(shí)現(xiàn)各種深層級(jí)數(shù)據(jù)抓取。網(wǎng)頁(yè)地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數(shù) 智聯(lián)招聘的服務(wù)...
摘要:日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。買(mǎi)賣(mài)簡(jiǎn)歷,直接違法。三人累計(jì)販賣(mài)個(gè)人簡(jiǎn)歷萬(wàn)余份,智聯(lián)招聘由此蒙受損失近日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。到底發(fā)生了什么? ?一 、為什么公司全員被抓? 3月14日?qǐng)F(tuán)隊(duì)被警方帶走,有HR等非核心成員回家,但核心高管依然失聯(lián)中。3月25日,一位巧達(dá)科技前員工告訴燃財(cái)經(jīng)。 在天眼查中北京...
閱讀 2773·2023-04-25 17:21
閱讀 2625·2021-11-23 09:51
閱讀 2936·2021-09-24 10:32
閱讀 3898·2021-09-23 11:33
閱讀 2034·2019-08-30 15:44
閱讀 3518·2019-08-30 11:18
閱讀 3626·2019-08-30 10:53
閱讀 698·2019-08-26 13:25