Python 爬蟲實(shí)戰(zhàn)（二）：使用 requests-html

honmaple 發(fā)布于2019-07-31 11:05 / 3085人閱讀

摘要：爬蟲實(shí)戰(zhàn)一使用和，我們使用了做網(wǎng)絡(luò)請求，拿到網(wǎng)頁數(shù)據(jù)再用解析，就在前不久，作者出了一個新庫，，它可以用于解析文檔的。是基于現(xiàn)有的框架等庫進(jìn)行了二次封裝，更加方便開發(fā)者調(diào)用。參考今天用了一下庫爬蟲公眾號我的公眾號吳小龍同學(xué)，歡迎交流

Python 爬蟲實(shí)戰(zhàn)（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網(wǎng)絡(luò)請求，拿到網(wǎng)頁數(shù)據(jù)再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一個新庫 requests-html，Pythonic HTML Parsing for Humans?，它可以用于解析 HTML 文檔的。requests-html 是基于現(xiàn)有的框架 PyQuery、Requests、lxml 等庫進(jìn)行了二次封裝，更加方便開發(fā)者調(diào)用。

安裝

Mac：

pip3 install requests-html

Windows：

pip install requests-html

實(shí)例

代碼擼多了，讓我們看會妹紙，爬的網(wǎng)站我選的是 http://www.win4000.com/zt/xin... ，打開網(wǎng)站，觀察到這是個列表，圖片是縮略圖，要想保存圖片到本地，當(dāng)然需要高清大圖，因此得進(jìn)入列表詳情，進(jìn)一步解析，完整代碼如下：

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析圖片列表
def get_girl_list():
    # 返回一個 response 對象
    response = session.get("http://www.win4000.com/zt/xinggan.html")  # 單位秒數(shù)

    content = response.html.find("div.Left_bar", first=True)

    li_list = content.find("li")

    for li in li_list:
        url = li.find("a", first=True).attrs["href"]
        get_girl_detail(url)


# 解析圖片詳細(xì)
def get_girl_detail(url):
    # 返回一個 response 對象
    response = session.get(url)  # 單位秒數(shù)
    content = response.html.find("div.scroll-img-cont", first=True)
    li_list = content.find("li")
    for li in li_list:
        img_url = li.find("img", first=True).attrs["data-original"]
        img_url = img_url[0:img_url.find("_")] + ".jpg"
        print(img_url + ".jpg")
        save_image(img_url)


# 保持大圖
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒級時間戳
    f = open("/Users/wuxiaolong/Desktop/Girl/%d.jpg" % t, "ab")  # 存儲圖片，多媒體文件需要參數(shù)b（二進(jìn)制文件）
    f.write(img_response.content)  # 多媒體存儲content
    f.close()


if __name__ == "__main__":
    get_girl_list()

代碼就這么多，是不是感覺很簡單啊。

說明：

1、requests-html 與 BeautifulSoup 不同，可以直接通過標(biāo)簽來 find，一般如下：
標(biāo)簽
標(biāo)簽.someClass
標(biāo)簽#someID
標(biāo)簽[target=_blank]
參數(shù) first 是 True，表示只返回 Element 找到的第一個，更多使用：http://html.python-requests.org/ ；

2、這里保存本地路徑 /Users/wuxiaolong/Desktop/Girl/我寫死了，需要讀者改成自己的，如果直接是文件名，保存路徑將是項(xiàng)目目錄下。

遺留問題

示例所爬網(wǎng)站是分頁的，沒有做，可以定時循環(huán)來爬妹紙哦，有興趣的讀者自己玩下。

參考

requests-html

今天用了一下Requests-HTML庫（Python爬蟲）

公眾號

我的公眾號：吳小龍同學(xué)，歡迎交流～

GPU云服務(wù)器云服務(wù)器 python爬蟲實(shí)戰(zhàn) python3爬蟲實(shí)戰(zhàn) python爬蟲使用代理ip 爬蟲實(shí)戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/44624.html

發(fā)表評論

登陸后可評論

0條評論

honmaple

男|高級講師

我要關(guān)注我要私信

TA的文章

精詞快排SEO不限指數(shù)任意關(guān)鍵詞1元/天最快最快隔天上首頁

閱讀 3267·2021-11-24 10:30
PIGYun：國慶優(yōu)惠，香港CN2線路60M帶寬月付19元，韓國CN2線路30M帶寬月付14元

閱讀 1381·2021-09-30 09:56
華納云：美國服務(wù)器正式發(fā)售，24元/月買 5M美國云機(jī)，50M CN2回國/100M國際大帶寬月付6

閱讀 2482·2021-09-07 10:20
NameSilo域名優(yōu)惠碼及商家介紹整理匯總

閱讀 2673·2021-08-27 13:10
實(shí)用瀏覽器調(diào)試技巧（動畫、節(jié)點(diǎn)刪除、節(jié)點(diǎn)增加）

閱讀 784·2019-08-30 11:11
前端實(shí)例練習(xí) - 任務(wù)清單 To do list

閱讀 2125·2019-08-29 12:13
javascript性能優(yōu)化

閱讀 818·2019-08-26 12:24
Router入門0x201: 從 URL 到 SPA

閱讀 2991·2019-08-26 12:20

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python 爬蟲實(shí)戰(zhàn)（二）：使用 requests-html

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

requests-html庫初識 + 無資料解BUG之 I/O error : encoder er

這個男人讓你的爬蟲開發(fā)效率提升8倍

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

Python爬蟲學(xué)習(xí)路線

發(fā)表評論

0條評論

honmaple

男|高級講師

TA的文章

精詞快排SEO不限指數(shù)任意關(guān)鍵詞1元/天最快最快隔天上首頁

PIGYun：國慶優(yōu)惠，香港CN2線路60M帶寬月付19元，韓國CN2線路30M帶寬月付14元

華納云：美國服務(wù)器正式發(fā)售，24元/月買 5M美國云機(jī)，50M CN2回國/100M國際大帶寬月付6

NameSilo域名優(yōu)惠碼及商家介紹整理匯總

實(shí)用瀏覽器調(diào)試技巧（動畫、節(jié)點(diǎn)刪除、節(jié)點(diǎn)增加）

前端實(shí)例練習(xí) - 任務(wù)清單 To do list

javascript性能優(yōu)化

Router入門0x201: 從 URL 到 SPA

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python 爬蟲實(shí)戰(zhàn)（二）：使用 requests-html

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！