學(xué)習(xí)極客學(xué)院多線程爬蟲(chóng)課程的收獲

saucxs 發(fā)布于2019-07-31 11:41 / 3336人閱讀

摘要：明日計(jì)劃加入計(jì)時(shí)功能，測(cè)試單線程與多線程的性能差別嘗試抓取網(wǎng)頁(yè)中的圖片并保存

昨天開(kāi)始了極客學(xué)院《XPath與多線程爬蟲(chóng)》課程的學(xué)習(xí)，主要涉及到XPath和requests的使用，在測(cè)試過(guò)程中出現(xiàn)了很多問(wèn)題，經(jīng)過(guò)不斷摸索以及前輩們的幫助，現(xiàn)將經(jīng)驗(yàn)總結(jié)如下：
1. Python3下面文本編碼問(wèn)題
雖然Python3相對(duì)于2已經(jīng)集成了很多編碼方式，使我們不需要過(guò)多去關(guān)心和指定編碼，但有時(shí)候在文本讀取，寫入的時(shí)候還是需要多小心，在測(cè)試過(guò)程中多次出現(xiàn)在寫入文件時(shí)報(bào)告錯(cuò)誤“UnicodeEncodeError: "ascii" codec can"t encode character "u56de" in position 0: ordinal not in range(128)”，這是由于我們?cè)谧ト【W(wǎng)頁(yè)的時(shí)候采用的是UTF-8編碼，而存儲(chǔ)時(shí)沒(méi)有指定編碼，在存儲(chǔ)到文件的過(guò)程中就會(huì)報(bào)錯(cuò)。
解決辦法為：
在讀取文件時(shí)加入指定UTF-8編碼的選項(xiàng)

f = open("content.txt","a",encoding="UTF-8")

另外需要注意的是使用requests獲取到網(wǎng)頁(yè)之后同樣要指定編碼

html = requests.get(url)
html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)

2. XPath的用法
XPath可以很方便的解析XML文件的節(jié)點(diǎn)和屬性，使用也很簡(jiǎn)單，相比于正則表達(dá)式來(lái)說(shuō)，XPath的查詢方式更加高效準(zhǔn)確，它來(lái)自于lxml包內(nèi)的etree，在使用之前應(yīng)該聲明

from lxml import etree

在使用XPath應(yīng)該遵循“先抓大，再抓小”的原則，現(xiàn)定位到大的節(jié)點(diǎn)，獲取到所有字節(jié)點(diǎn)再一層一層往下尋找，直到獲取所需要的信息
例如，我們想要抓取百度貼吧的網(wǎng)頁(yè)每一個(gè)樓層的信息（包括作者，回帖時(shí)間，回帖內(nèi)容等等），通過(guò)Chrome-Inspect element可以審查代碼，得到某一個(gè)樓層的代碼樓層最外層都有聲明：


使用XPath先獲取整個(gè)樓層的所有節(jié)點(diǎn)（Node）
content_field = selector.xpath("http://div[@class="l_post j_l_post l_post_bright  "]")

再往下尋找，發(fā)現(xiàn)我們要提取的內(nèi)容位于


這一個(gè)節(jié)點(diǎn)以內(nèi)，再繼續(xù)往下挖掘：
content =each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()")

這樣一步步得到想要的內(nèi)容
3.JSON格式
網(wǎng)頁(yè)中很多內(nèi)容使用JSON來(lái)傳輸，我們要把內(nèi)容還原出來(lái)需要使用json模塊
import json
reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))

4.Python中的多線程
多線程可以很大幅度提高軟件的處理速度，可以充分利用計(jì)算機(jī)性能，不同的核處理不同的任務(wù)，并行執(zhí)行，提高處理速度，使用方法如下：
from multiprocessing.dummy import Pool as ThreadPool
pool = ThreadPool(8)
results = pool.map(spider,page)
pool.close()
pool.join()

map 這一小巧精致的函數(shù)是簡(jiǎn)捷實(shí)現(xiàn) Python 程序并行化的關(guān)鍵。map 源于 Lisp 這類函數(shù)式編程語(yǔ)言。它可以通過(guò)一個(gè)序列實(shí)現(xiàn)兩個(gè)函數(shù)之間的映射。上面的這兩行代碼將 page這一序列中的每個(gè)元素作為參數(shù)傳遞到 spyder 方法中，并將所有結(jié)果保存到 results 這一列表中。其結(jié)果大致相當(dāng)于：
results = []
for page in pages: 
    results.append(spyder(page))

上述代碼中調(diào)用join之前，先調(diào)用close函數(shù)，否則會(huì)出錯(cuò)。執(zhí)行完close后不會(huì)有新的進(jìn)程加入到pool,join函數(shù)等待所有子進(jìn)程結(jié)束。
全部代碼：
#-*-coding:utf8-*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import json
import re
import sys

"""重新運(yùn)行之前請(qǐng)刪除content.txt，因?yàn)槲募僮魇褂米芳臃绞剑瑫?huì)導(dǎo)致內(nèi)容太多。"""

def towrite(contentdict):
    #f=open("content.txt","wb")
    f.writelines(u"回帖時(shí)間:" + str(contentdict["topic_reply_time"]) + "
")
    f.writelines(u"回帖內(nèi)容:" + str(contentdict["topic_reply_content"]) + "
")
    f.writelines(u"回帖人:" + contentdict["user_name"] + "

")
    #f.close()

def spider(url):
    html = requests.get(url)
    #print(html.text)
    html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)
    selector = etree.HTML(html)
    # print(selector)
    #content_field = selector.xpath("http://div[starts-with(@class,"l_post l_post_bright")]")p_content p_content_nameplate
    #content_field = selector.xpath("http://*[@id="j_p_postlist"]")
    content_field = selector.xpath("http://div[@class="l_post j_l_post l_post_bright  "]")
    item = {}
    for each in content_field:
        reply_info = json.loads(each.xpath("@data-field")[0].replace(""",""))
        author = reply_info["author"]["user_name"]
        # content1 = each.xpath("http://div[@class="d_post_content_main"]")
        content = each.xpath("div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()")
        reply_time = reply_info["content"]["date"]
        print("content:{0}".format(content))
        print("Reply_time:{0}".format(reply_time))
        print("Author:{0}".format(author))
        item["user_name"] = author
        item["topic_reply_content"] = content
        item["topic_reply_time"] = reply_time
        towrite(item)

if __name__ == "__main__":
    pool = ThreadPool(8)
    f = open("content.txt","a",encoding="UTF-8")
    # f = open("content.txt","a")
    page = []
    for i in range(1,21):
        newpage = "http://tieba.baidu.com/p/3522395718?pn=" + str(i)
        page.append(newpage)

    results = pool.map(spider,page)
    pool.close()
    pool.join()
    f.close()

結(jié)果如下：
回帖時(shí)間:2015-01-11 16:52
回帖內(nèi)容:["            6和plus糾結(jié)買哪款。還有 買完新機(jī)可以讓他上色嗎"]
回帖人:斗已轉(zhuǎn)0

回帖時(shí)間:2015-01-11 16:53
回帖內(nèi)容:["            我現(xiàn)在是以貼吧高級(jí)會(huì)員的身份幫你頂貼，請(qǐng)注意你的態(tài)度"]
回帖人:暑假干啥

回帖時(shí)間:2015-01-11 16:57
回帖內(nèi)容:["            我去"]
回帖人:qw518287200

回帖時(shí)間:2015-01-11 16:57
回帖內(nèi)容:["            能教我怎么看序列號(hào)或imei號(hào)麼，大神uf618"]
回帖人:花顏誘朕醉

需要注意的是，極客學(xué)院附帶資料的源代碼是無(wú)法使用的，以上說(shuō)到的幾點(diǎn)就是我在調(diào)試過(guò)程中淌過(guò)的坑，要注意使用Chrome對(duì)要抓取的網(wǎng)頁(yè)進(jìn)行細(xì)心分析，修改xpath參數(shù)并不斷試驗(yàn)。
+++++++明日計(jì)劃++++++++++++++++
加入計(jì)時(shí)功能，測(cè)試單線程與多線程的性能差別
嘗試抓取網(wǎng)頁(yè)中的圖片并保存           
               
                                           
                       
                 
            
                     
                 
                                                                                                                    
                         GPU云服務(wù)器
                                             
                         云服務(wù)器
                                                                                                                                                 
                                      
                     
                    
                                                                                               爬蟲(chóng)多線程
                                                                                                           多線程爬蟲(chóng)
                                                                                                           多線程網(wǎng)頁(yè)爬蟲(chóng)
                                                                                                           jsoup多線程爬蟲(chóng)
                                                         
                 
               
              
             
               
                    文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。
                 
                   轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/45408.html
               
                      
               
                 
                                  上一篇：Python數(shù)據(jù)結(jié)構(gòu)——二叉搜索樹(shù)的實(shí)現(xiàn)（上）  
                                                
                                       下一篇：python函數(shù)和類的一些研究

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

saucxs

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

V5 Server：香港、韓國(guó)、臺(tái)灣獨(dú)立服務(wù)器7折優(yōu)惠，香港BGP服務(wù)器月付低至325元

閱讀 2643·2021-09-01 10:41
css實(shí)現(xiàn)文本溢出隱藏

閱讀 1507·2019-08-30 14:12
css 命名分類排序方法

閱讀 584·2019-08-29 12:32
徹底弄懂css中單位px和em,rem的區(qū)別

閱讀 2916·2019-08-29 12:25
php爬蟲(chóng)：知乎用戶數(shù)據(jù)爬取和分析

閱讀 3001·2019-08-28 18:30
js設(shè)計(jì)模式 --- 外觀設(shè)計(jì)模式

閱讀 1767·2019-08-26 11:47
查找vue文件中未使用的data中數(shù)據(jù)

閱讀 1074·2019-08-26 10:35
Vue 改變數(shù)據(jù)，頁(yè)面不刷新的問(wèn)題

閱讀 2673·2019-08-23 18:06

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

學(xué)習(xí)極客學(xué)院多線程爬蟲(chóng)課程的收獲

相關(guān)文章

python爬蟲(chóng)網(wǎng)頁(yè)提取器——xpath

**前端學(xué)習(xí)之路**

**前端學(xué)習(xí)之路**

**前端學(xué)習(xí)之路**

發(fā)表評(píng)論

0條評(píng)論

saucxs

男|高級(jí)講師

TA的文章

V5 Server：香港、韓國(guó)、臺(tái)灣獨(dú)立服務(wù)器7折優(yōu)惠，香港BGP服務(wù)器月付低至325元

css實(shí)現(xiàn)文本溢出隱藏

css 命名分類排序方法

徹底弄懂css中單位px和em,rem的區(qū)別

php爬蟲(chóng)：知乎用戶數(shù)據(jù)爬取和分析

js設(shè)計(jì)模式 --- 外觀設(shè)計(jì)模式

查找vue文件中未使用的data中數(shù)據(jù)

Vue 改變數(shù)據(jù)，頁(yè)面不刷新的問(wèn)題

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

學(xué)習(xí)極客學(xué)院多線程爬蟲(chóng)課程的收獲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！