關(guān)于使用cheerio抓取一個網(wǎng)頁遇見的問題以及解決的過程

hedge_hog 發(fā)布于2019-08-21 16:58 / 3669人閱讀

摘要：這樣嘗試了之后，網(wǎng)頁中文編碼的問題會解決大部分，但是有的地方還是存在中文亂碼這樣的問題主要是我在進(jìn)行了轉(zhuǎn)碼成之后沒有將新插入后的頁面轉(zhuǎn)碼到初始狀態(tài)，一旦被瀏覽器下載之后瀏覽器會無法識別部分的編碼從而導(dǎo)致一部分編碼。

最近做開發(fā)有一個需求需要用cheerio抓取一個網(wǎng)頁，然后將一段js腳本插入到標(biāo)簽的末尾。然后還要保證瀏覽器運(yùn)行正?！，F(xiàn)在把這些遇見過的問題記錄一下。
這里面就存在一個問題就是：

Node.js默認(rèn)是不支持utf-8編碼的，所以抓取非 utf-8 的中文網(wǎng)頁時會出現(xiàn)亂碼問題，比如網(wǎng)易的首頁編碼是 gb2312，抓取時會出現(xiàn)亂碼，百度下眾大佬們的看法都是使用icon-lite 進(jìn)行轉(zhuǎn)碼（有興趣可以自行百度cheerio中文亂碼）。（只是他們說的情況跟我這邊還不太一樣。我需要將網(wǎng)頁返還給瀏覽器）。然后我就開始動手試了一下。思路大概是這樣的：獲取代理層將請求回來的html請求頭header中的content-type 來判斷這個網(wǎng)頁的編碼方式。然后使用iconv.decode將其進(jìn)行相應(yīng)的轉(zhuǎn)碼然后在做js替換。但是這樣的話是有漏洞的，如下圖

有的網(wǎng)站開發(fā)規(guī)范性不夠甚至在content-type 連網(wǎng)頁的編碼方式都不去聲明。所以這條路是不通的只能通過抓取標(biāo)簽來確定網(wǎng)頁相應(yīng)的編碼進(jìn)而轉(zhuǎn)碼。

var newDataStr = "";
             var charset="utf-8";
              var arr=responseDetail.response.body.toString().match(/]*?)>/g);
              if(arr){
                arr.forEach(function(val){
                  var match=val.match(/charsets*=s*(.+)"/);
                  if(match && match[1]){
                    if(match[1].substr(0,1)==""")match[1]=match[1].substr(1);
                    charset=match[1].trim();
                    return false;
                  }
                })
                  }
                var html = iconv.decode(responseDetail.response.body, charset);

         // var html = responseDetail.response.body.toString();
         var $ = cheerio.load(html);
         responseDetail.response.body = newDataStr;
         return  {response: responseDetail.response}

這樣嘗試了之后，網(wǎng)頁中文編碼的問題會解決大部分，但是有的地方還是存在中文亂碼

這樣的問題主要是我在node進(jìn)行了轉(zhuǎn)碼成gbk之后沒有將新插入后的頁面轉(zhuǎn)碼到初始狀態(tài)，一旦被瀏覽器下載之后瀏覽器會無法識別部分js xhr的編碼從而導(dǎo)致一部分編碼。所以

newDataStr=iconv.encode($.html(), charset); 將其返回到最初的編碼方式就可以了

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/88979.html

發(fā)表評論

登陸后可評論

0條評論

hedge_hog

男|高級講師

我要關(guān)注我要私信

TA的文章

解析的主機(jī)記錄是什么情況-域名解析里面的A記錄是什么意思？

閱讀 4846·2021-09-22 16:06
云主機(jī)怎么配置-云主機(jī)怎么使用？

閱讀 2150·2021-09-22 15:22
Sublime Text3 配置less保存自動編譯

閱讀 1492·2019-08-30 15:54
contenteditable跟user-modify還能這么玩

閱讀 2570·2019-08-30 15:44
git 基本命令

閱讀 2405·2019-08-29 16:31
js判斷PC端還是移動端的代碼小坑

閱讀 2068·2019-08-29 16:26
全面兼容ie6,ie7,ie8,ff的最簡單的css寫法

閱讀 2397·2019-08-29 12:41
CSS選擇器總結(jié)（分類、優(yōu)先級）

閱讀 805·2019-08-29 12:22

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

關(guān)于使用cheerio抓取一個網(wǎng)頁遇見的問題以及解決的過程

相關(guān)文章

分分鐘教你用node.js寫個爬蟲

**node爬蟲抓取網(wǎng)頁的實現(xiàn)**

**使用 node 抓取網(wǎng)頁圖片**

**Nodejs爬蟲--抓取豆瓣電影網(wǎng)頁數(shù)據(jù)（下）**

**Nodejs爬蟲--抓取豆瓣電影網(wǎng)頁數(shù)據(jù)（下）**

發(fā)表評論

0條評論

hedge_hog

男|高級講師

TA的文章

解析的主機(jī)記錄是什么情況-域名解析里面的A記錄是什么意思？

云主機(jī)怎么配置-云主機(jī)怎么使用？

Sublime Text3 配置less保存自動編譯

contenteditable跟user-modify還能這么玩

git 基本命令

js判斷PC端還是移動端的代碼小坑

全面兼容ie6,ie7,ie8,ff的最簡單的css寫法

CSS選擇器總結(jié)（分類、優(yōu)先級）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

關(guān)于使用cheerio抓取一個網(wǎng)頁遇見的問題以及解決的過程

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！