成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

Python 爬蟲實(shí)戰(zhàn)(二):使用 requests-html

honmaple / 3085人閱讀

摘要:爬蟲實(shí)戰(zhàn)一使用和,我們使用了做網(wǎng)絡(luò)請求,拿到網(wǎng)頁數(shù)據(jù)再用解析,就在前不久,作者出了一個新庫,,它可以用于解析文檔的。是基于現(xiàn)有的框架等庫進(jìn)行了二次封裝,更加方便開發(fā)者調(diào)用。參考今天用了一下庫爬蟲公眾號我的公眾號吳小龍同學(xué),歡迎交流

Python 爬蟲實(shí)戰(zhàn)(一):使用 requests 和 BeautifulSoup,我們使用了 requests 做網(wǎng)絡(luò)請求,拿到網(wǎng)頁數(shù)據(jù)再用 BeautifulSoup 解析,就在前不久,requests 作者 kennethreitz 出了一個新庫 requests-html,Pythonic HTML Parsing for Humans?,它可以用于解析 HTML 文檔的。requests-html 是基于現(xiàn)有的框架 PyQuery、Requests、lxml 等庫進(jìn)行了二次封裝,更加方便開發(fā)者調(diào)用。

安裝

Mac:

pip3 install requests-html

Windows:

pip install requests-html
實(shí)例

代碼擼多了,讓我們看會妹紙,爬的網(wǎng)站我選的是 http://www.win4000.com/zt/xin... ,打開網(wǎng)站,觀察到這是個列表,圖片是縮略圖,要想保存圖片到本地,當(dāng)然需要高清大圖,因此得進(jìn)入列表詳情,進(jìn)一步解析,完整代碼如下:

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析圖片列表
def get_girl_list():
    # 返回一個 response 對象
    response = session.get("http://www.win4000.com/zt/xinggan.html")  # 單位秒數(shù)

    content = response.html.find("div.Left_bar", first=True)

    li_list = content.find("li")

    for li in li_list:
        url = li.find("a", first=True).attrs["href"]
        get_girl_detail(url)


# 解析圖片詳細(xì)
def get_girl_detail(url):
    # 返回一個 response 對象
    response = session.get(url)  # 單位秒數(shù)
    content = response.html.find("div.scroll-img-cont", first=True)
    li_list = content.find("li")
    for li in li_list:
        img_url = li.find("img", first=True).attrs["data-original"]
        img_url = img_url[0:img_url.find("_")] + ".jpg"
        print(img_url + ".jpg")
        save_image(img_url)


# 保持大圖
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒級時間戳
    f = open("/Users/wuxiaolong/Desktop/Girl/%d.jpg" % t, "ab")  # 存儲圖片,多媒體文件需要參數(shù)b(二進(jìn)制文件)
    f.write(img_response.content)  # 多媒體存儲content
    f.close()


if __name__ == "__main__":
    get_girl_list()

代碼就這么多,是不是感覺很簡單啊。

說明:

1、requests-html 與 BeautifulSoup 不同,可以直接通過標(biāo)簽來 find,一般如下:
標(biāo)簽
標(biāo)簽.someClass
標(biāo)簽#someID
標(biāo)簽[target=_blank]
參數(shù) first 是 True,表示只返回 Element 找到的第一個,更多使用:http://html.python-requests.org/ ;

2、這里保存本地路徑 /Users/wuxiaolong/Desktop/Girl/我寫死了,需要讀者改成自己的,如果直接是文件名,保存路徑將是項(xiàng)目目錄下。

遺留問題

示例所爬網(wǎng)站是分頁的,沒有做,可以定時循環(huán)來爬妹紙哦,有興趣的讀者自己玩下。

參考

requests-html

今天用了一下Requests-HTML庫(Python爬蟲)

公眾號

我的公眾號:吳小龍同學(xué),歡迎交流~

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/44624.html

相關(guān)文章

  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • requests-html庫初識 + 無資料解BUG之 I/O error : encoder er

    摘要:目標(biāo)站點(diǎn)分析本次要采集的目標(biāo)網(wǎng)站為,目標(biāo)站點(diǎn)描述為全球名站。由于上述代碼太少了,完全不夠今日代碼量,我們順手將其修改為多線程形式。 本篇博客是《爬蟲 120 例》的...

    mozillazg 評論0 收藏0
  • 這個男人讓你的爬蟲開發(fā)效率提升8倍

    摘要:提升倍雖是我胡謅的數(shù)據(jù),開發(fā)效率的提升卻是杠杠滴。而卻不同,它提供了官方中文文檔,其中包括了很清晰的快速上手和詳盡的高級用法和接口指南。其他更多詳細(xì)內(nèi)容不多說了,中文官網(wǎng)地址,順著看一遍,寫一遍,你就掌握這個爬蟲神器了。 他叫 Kenneth Reitz?,F(xiàn)就職于知名云服務(wù)提供商 DigitalOcean,曾是云計算平臺 Heroku 的 Python 架構(gòu)師,目前 Github 上 ...

    Jackwoo 評論0 收藏0
  • 零基礎(chǔ)如何學(xué)爬蟲技術(shù)

    摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...

    KunMinX 評論0 收藏0
  • Python爬蟲學(xué)習(xí)路線

    摘要:以下這些項(xiàng)目,你拿來學(xué)習(xí)學(xué)習(xí)練練手。當(dāng)你每個步驟都能做到很優(yōu)秀的時候,你應(yīng)該考慮如何組合這四個步驟,使你的爬蟲達(dá)到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學(xué)習(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的設(shè)計方案,比如說。 (一)如何學(xué)習(xí)Python 學(xué)習(xí)Python大致可以分為以下幾個階段: 1.剛上手的時候肯定是先過一遍Python最基本的知識,比如說:變量、數(shù)據(jù)結(jié)構(gòu)、語法...

    liaoyg8023 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<