智聯(lián)招聘數(shù)據(jù)爬取準(zhǔn)備(1)-智聯(lián)招聘搜索列表源碼解析

VPointer 發(fā)布于2019-07-24 18:17 / 1365人閱讀

摘要：網(wǎng)頁源碼解析智聯(lián)招聘搜索列表一開始必須要解析智聯(lián)招聘搜索列表頁，從這里更方便實(shí)現(xiàn)各種深層級數(shù)據(jù)抓取。顯示不同源碼也不同，盡量選列表模式，源碼更好解析。

網(wǎng)頁源碼解析 - 智聯(lián)招聘搜索列表

一開始必須要解析智聯(lián)招聘搜索列表頁，從這里更方便實(shí)現(xiàn)各種深層級數(shù)據(jù)抓取。
網(wǎng)頁地址是：
http://sou.zhaopin.com/jobs/searchresult.ashx

搜索參數(shù)

智聯(lián)招聘的服務(wù)器只接收Get方式，如果用Post方式抓取頁面，則不會返回想要的招聘信息，而會得到一堆廣告。
下面是我手動測試的一些智聯(lián)在這個(gè)頁面Get方式傳遞的搜索參數(shù)，也是目前最常用的（注釋掉的不怎么常用）：

data_filter = {
    "kw" : keyword, # 搜索關(guān)鍵詞
    "sm" : "0", # 顯示方式代碼： 列表是"0",詳細(xì)是"1"。顯示不同源碼也不同，盡量選列表模式，源碼更好解析。
    "jl" : "北京", # 搜索城市："北京"，多項(xiàng)用"+"連接(URL編碼為%2B)
    #"bj" : "", # 職位類別代碼：互聯(lián)網(wǎng)產(chǎn)品/運(yùn)營管理 的代碼為 "160200"，多項(xiàng)用"%3B"連接(URL編碼的%)
    #"in" : "", # 行業(yè)代碼：多項(xiàng)用";"連接(URL編碼為%3B)
    "kt" : "0", # 關(guān)鍵詞搜索范圍：全文"0" | 公司名"1" | 職位名"2"
    "isadv" : "0", # 是否高級搜索：快速搜索"0" | 高級搜索"1"
    # "isfilter" : "1", # 是不是篩選器： "0" | "1"
    # "ispts" : "", # 通常為 "1"
    #"sj" : "", # 職位子類別代碼：
    # "gc" : "5號", # 地鐵線路： "5號"
    # "ga" : "立水橋", # 地名或地鐵站名： "天通苑南" 、 "小湯山"
    # "sb" : "0", # 排序方式代碼：默認(rèn)排序是"0",相關(guān)度排序是"1", 首發(fā)日排序是"2"
    #"fjt" : "10000", # 職位標(biāo)簽 五險(xiǎn)一金"10000" 年底雙薪"10001" 績效獎(jiǎng)金"10002" 等等
    # "sf" : "-1", # 月薪底線："8001" 不限是"-1"
    # "st" : "-1", # 月薪上限："10000" 不限是"-1"
    # "ct" : "-1", # 公司性質(zhì)代碼
    # "el" : "-1", # 學(xué)歷代碼
    # "we" : "-1", # 工作經(jīng)驗(yàn)代碼
    # "et" : "-1", # 職位類型代碼：兼職"1" 全職"2" 實(shí)習(xí)"4"
    # "pd" : "-1", # 發(fā)布時(shí)間(天數(shù))：一周是"7"，一個(gè)月是"30"，不限是"-1"
    "p" : page, # 頁碼，超出總頁碼時(shí)，則會顯示最后一頁
    #"gr" : "", # 
    # "re" : "2015", # 這個(gè)限制了搜素?cái)?shù)量，但是其實(shí)也不是按年份搜索
    "sg" : guid, # 即全網(wǎng)唯一標(biāo)示符——GUID
    #"" : "" #
}

它在python中的用法，就是通過urllib.urlencode()來轉(zhuǎn)成URL參數(shù)格式，并提交。

網(wǎng)頁源碼解析 - “列表模式”

如果解析“列表模式”的智聯(lián)招聘網(wǎng)頁，需要在Get參數(shù)里面的sm設(shè)為0。
里面唯一需要的就是中間的結(jié)果列表部分，
即id為"newlist_list_content_table"的DIV用，源碼如下：


    
        一條招聘信息
    
    
        一條招聘信息

其中會循環(huán)輸出class為newlist的Table表格
即一條一條的招聘信息。
每一條招聘信息的源碼如下：



    
        
        
            會計(jì)（數(shù)據(jù)）
        
    
    87%
    中海軟銀投資管理有限公司
    面議
    北京
    12-10


    
        
            
                
                    地點(diǎn)：北京公司性質(zhì)：民營公司規(guī)模：100-499人經(jīng)驗(yàn)：5-10年學(xué)歷：大專
 崗位職責(zé)：  1. 熟練使用excel數(shù)據(jù)統(tǒng)計(jì)功能； 2.核對第三方支付平臺及技術(shù)后臺數(shù)據(jù)并找出差異； 3. 完成與數(shù)據(jù)部工作銜接，做好數(shù)據(jù)臺賬的統(tǒng)計(jì)工作； 4．根據(jù)資產(chǎn)端和資金端數(shù)據(jù)完成日匯總報(bào)表； 5. 領(lǐng)導(dǎo)交辦的其他工作。...

在“列表”模式中，每一條記錄采用了Table格式，第一個(gè)TR是簡述信息，第二個(gè)TR是擴(kuò)展信息。簡述信息中，每個(gè)信息都有固定Class屬性，而且是非空信息，是肯定能獲取到的。而擴(kuò)展信息中，規(guī)則性不強(qiáng)，只能用“公司性質(zhì)：xx”這樣的正則表達(dá)式來匹配或是用tag的嵌套層級和順序來定位，成功率和穩(wěn)定性都不高。
總結(jié)一下，這里的主要定位方式為：

職位名稱： class = "zwmc"

反饋率： class = "fk_lv"

公司名稱： class = "gsmc"

職位月薪： class = "zwyx" 或 職位月薪：xx

工作地點(diǎn)： class = "gzdd" 或 地點(diǎn)：xx

更新時(shí)間： class = "gxsj" 或

12-10

公司性質(zhì)： 公司性質(zhì)：xx

公司規(guī)模： 公司規(guī)模：xx

學(xué)歷要求： 學(xué)歷：xx

崗位職責(zé)：

崗位職責(zé)：xx

其實(shí)還有tag的嵌套層級和順序，可以用來定位信息。但是我不想這么做，因?yàn)檫@個(gè)太不穩(wěn)定了，而且大大的增加了代碼的長度，如果不存在信息還會導(dǎo)致報(bào)錯(cuò)。相比而言，用中文的人能理解的語言來進(jìn)行正則匹配，更有成功率，且更容易操作。

網(wǎng)頁源碼解析 - “詳細(xì)模式”

如果解析“詳細(xì)模式”的智聯(lián)招聘網(wǎng)頁，需要在Get參數(shù)里面的sm設(shè)為1。
里面唯一需要的就是中間的結(jié)果列表部分，
即id為"newlist_list_content_table"的DIV用，源碼如下：


    一條招聘信息
    一條招聘信息

其中會循環(huán)輸出class為newlist_detail newlist的子DIV層
即一條一條的招聘信息。
每一條招聘信息的源碼如下：


    
        
            
                
                行政后勤經(jīng)理
            
                
                樂視網(wǎng)信息技術(shù)(北京)股份有限公司
            
                地點(diǎn)：北京
                公司性質(zhì)：上市公司
                公司規(guī)模：1000-9999人
                學(xué)歷：本科
            
 
            崗位職責(zé)：  1、負(fù)責(zé)對日常行政后勤工作（包括名片、加班餐、辦公用品、員工離入職、印章、會議室的相關(guān)事宜）進(jìn)行全面的監(jiān)督控制，發(fā)現(xiàn)問題及時(shí)予以規(guī)范，協(xié)助上級領(lǐng)導(dǎo)應(yīng)對處理突發(fā)事件; 2、進(jìn)行行政后勤各項(xiàng)費(fèi)用預(yù)算，嚴(yán)格管控各項(xiàng)費(fèi)用的使用情況，節(jié)省公司成本，實(shí)現(xiàn)效益的最大化; 3、部門員工的招聘與培養(yǎng)和...
        
        
            12-07

在源碼上，雖然“詳細(xì)模式”的解析和“列表模式”有很大的不同，幾個(gè)信息的抓取方式不一樣，但是卻可以共用。如有的是按照class名，有的是按照tag名等。但是這不影響兩種模式放在一起解析——為每一個(gè)信息元素如“月薪”、“公司名稱”等，設(shè)置多種搜索方式。在寫代碼時(shí)，只要分別檢索多種方式就可以獲得數(shù)據(jù)。具體參考抓取代碼的實(shí)現(xiàn)。

獲取搜索結(jié)果數(shù)量

雖然每頁只能顯示40條信息，但是在頁面上方還是會顯示一共有多少條搜索結(jié)果。如“”
代碼如下：


    共2025個(gè)職位滿足條件

獲取GUID——全局唯一標(biāo)識符

雖然沒有研究過GUID，但是我看到智聯(lián)招聘的網(wǎng)頁會在URL中顯示的調(diào)用，參數(shù)名為sg。
不知道它對爬蟲有什么影響。不過我還是嘗試著獲取了一下，很簡單直接用id搜索input標(biāo)簽的value就行。網(wǎng)頁源碼如下：

獲取當(dāng)前頁碼及下一頁的鏈接地址

智聯(lián)招聘這個(gè)頁面最逗的是，如果當(dāng)前信息只有4頁，那么及時(shí)url參數(shù)中頁碼指定100，它仍然不會自動跳轉(zhuǎn)。所以從url或者.geturl()來判斷當(dāng)前真實(shí)頁碼也就成了不對了。
不過好在一點(diǎn)，這個(gè)頁面下方的頁碼控制欄中可以清楚的看到當(dāng)前頁碼是多少，所以就從這里入手。這部分網(wǎng)頁源碼如下：



    上一頁
1
    2
    3
    4
    5
    6
    7
    8
    ...
    下一頁
    
到???????頁

從中可以看到，當(dāng)前頁碼的定位極其方便，只要從class="pagesDown"的div中找到class="current"的a鏈接就得到了。
同理，下一頁的鏈接可以找class="next-page"的a標(biāo)簽獲取href值。

云服務(wù)器 GPU云服務(wù)器智聯(lián) php招聘系統(tǒng)源碼 java招聘網(wǎng)源碼云賽智聯(lián)服務(wù)器

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/37663.html

發(fā)表評論

登陸后可評論

0條評論

VPointer

男|高級講師

我要關(guān)注我要私信

TA的文章

搬瓦工：Linux服務(wù)器選擇CentOS、Debian、Ubuntu 鏡像的建議

閱讀 4000·2021-09-23 11:51
虛擬主機(jī)業(yè)務(wù)是什么-服務(wù)器與虛擬主機(jī)有什么區(qū)別？

閱讀 3137·2021-09-22 15:59
BuyVM：新增解鎖流媒體VPS主機(jī) $5/月起，1Gbps不限流量，拉斯維加斯

閱讀 1009·2021-09-09 11:37
蘋果首款 AR/VR 頭設(shè)的定制芯片可能已完成設(shè)計(jì)

閱讀 2158·2021-09-08 09:45
CSS入門之盒模型（六分之四）

閱讀 1344·2019-08-30 15:54
H5實(shí)例教學(xué)--3D全景(ThreeJs全景Demo)

閱讀 2153·2019-08-30 15:53
CSS || 元素垂直居中筆記

閱讀 557·2019-08-29 12:12
JSer全?；夹g(shù)棧推薦(一)——原生移動端是天堂還是泥潭

閱讀 3364·2019-08-29 11:15

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

智聯(lián)招聘數(shù)據(jù)爬取準(zhǔn)備(1)-智聯(lián)招聘搜索列表源碼解析

相關(guān)文章

智聯(lián)招聘數(shù)據(jù)爬取準(zhǔn)備(2)-招聘信息頁面及企業(yè)主頁源碼解析

**Scrapy爬取智聯(lián)招聘**

**node.js 89行爬蟲爬取智聯(lián)招聘信息**

**python爬蟲招聘網(wǎng)站（智聯(lián)）**

發(fā)表評論

0條評論

VPointer

男|高級講師

TA的文章

搬瓦工：Linux服務(wù)器選擇CentOS、Debian、Ubuntu 鏡像的建議

虛擬主機(jī)業(yè)務(wù)是什么-服務(wù)器與虛擬主機(jī)有什么區(qū)別？

BuyVM：新增解鎖流媒體VPS主機(jī) $5/月起，1Gbps不限流量，拉斯維加斯

蘋果首款 AR/VR 頭設(shè)的定制芯片可能已完成設(shè)計(jì)

CSS入門之盒模型（六分之四）

H5實(shí)例教學(xué)--3D全景(ThreeJs全景Demo)

CSS || 元素垂直居中筆記

JSer全?；夹g(shù)棧推薦(一)——原生移動端是天堂還是泥潭

最新活動

會計(jì)（數(shù)據(jù)）	87%	中海軟銀投資管理有限公司	面議	北京	12-10
地點(diǎn)：北京公司性質(zhì)：民營公司規(guī)模：100-499人經(jīng)驗(yàn)：5-10年學(xué)歷：大專崗位職責(zé)： 1. 熟練使用excel數(shù)據(jù)統(tǒng)計(jì)功能； 2.核對第三方支付平臺及技術(shù)后臺數(shù)據(jù)并找出差異； 3. 完成與數(shù)據(jù)部工作銜接，做好數(shù)據(jù)臺賬的統(tǒng)計(jì)工作； 4．根據(jù)資產(chǎn)端和資金端數(shù)據(jù)完成日匯總報(bào)表； 5. 領(lǐng)導(dǎo)交辦的其他工作。...

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

智聯(lián)招聘數(shù)據(jù)爬取準(zhǔn)備(1)-智聯(lián)招聘搜索列表源碼解析

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！