摘要:前言啃了這么長時間,基本上已經(jīng)把某數(shù)的套路摸了個八九不離十,不愧是中國反爬界的集大成者,感覺收獲滿滿,這里就簡單記錄一下分析成果。注意某數(shù)在不同的網(wǎng)站上有不同的版本,其流程也略有不同,這里的流程不一定適用于其它網(wǎng)站。
前言
啃了這么長時間,基本上已經(jīng)把某數(shù)的套路摸了個八九不離十,不愧是中國反爬界的集大成者,感覺收獲滿滿,這里就簡單記錄一下分析成果。
注意:某數(shù)在不同的網(wǎng)站上有不同的版本,其流程也略有不同,這里的流程不一定適用于其它網(wǎng)站。
QQ群 - Javascript高級爬蟲 - 作者自建群,歡迎加入!
中國商標(biāo)網(wǎng)加密接口 - 僅作演示
之前的文章1 - 記錄了之前嘗試的其它方法
之前的文章2 - 對加密混淆后的js的一些初步分析
awesome-java-crawler - 我收集的爬蟲相關(guān)工具和資料
java-curl - 我編寫的java HTTP庫
另一個用了某數(shù)加密的網(wǎng)站的破解SDK
前端流程請求頁面,返回應(yīng)答;如果有之前生成的有效FSSBBIl1UgzbN7N80T cookie值,請求時須帶上。
應(yīng)答的html中,包含以下關(guān)鍵數(shù)據(jù):
元素的content,這是加密后的數(shù)據(jù),里面包含字符串映射表、全局方法映射表、加解密算法密鑰等;注意有些網(wǎng)站的meta.id不同