Python 從零開(kāi)始爬蟲(chóng)(三)——實(shí)戰(zhàn)：requests+BeautifulSoup實(shí)現(xiàn)靜態(tài)爬取

Codeing_ls 發(fā)布于2019-07-30 16:15 / 1864人閱讀

摘要：前篇全片都是生硬的理論使用，今天就放個(gè)靜態(tài)爬取的實(shí)例讓大家體驗(yàn)一下的使用，了解一些背后的原理。給出網(wǎng)站打開(kāi)右鍵檢查第一個(gè)電影，分析源碼先，發(fā)現(xiàn)每個(gè)標(biāo)簽就對(duì)應(yīng)著一個(gè)電影的信息。

前篇全片都是生硬的理論使用，今天就放個(gè)靜態(tài)爬取的實(shí)例讓大家體驗(yàn)一下BeautifulSoup的使用，了解一些背后的原理。

順便在這引入靜態(tài)網(wǎng)頁(yè)的概念——靜態(tài)網(wǎng)頁(yè)是指一次性加載所有內(nèi)容的網(wǎng)頁(yè)，爬蟲(chóng)一次請(qǐng)求便能得到所有信息，對(duì)爬蟲(chóng)非常友好，適合練手

豆瓣top250電影信息爬取

這是一個(gè)老掉牙的經(jīng)典實(shí)例了，但越是經(jīng)典，越有示范性作用，最重要的一點(diǎn)是，它是靜態(tài)的。
給出網(wǎng)站：https://movie.douban.com/top250
打開(kāi)F12/右鍵檢查第一個(gè)電影，分析源碼先，發(fā)現(xiàn)每個(gè)

標(biāo)簽就對(duì)應(yīng)著一個(gè)電影的信息。

我們來(lái)爬取每部電影的圖片，名稱，導(dǎo)演演員，類型，評(píng)分，和它的一句話總結(jié)，繼續(xù)對(duì)

標(biāo)簽進(jìn)行分析,又發(fā)現(xiàn)信息又在

標(biāo)簽里，而這標(biāo)簽只存在于

標(biāo)簽中，其它地方不存在，這樣可以用find_all()方法把他們?nèi)糠蛛x出來(lái)。這里不選擇

標(biāo)簽是它沒(méi)有唯一性，電影以外的內(nèi)容也有

標(biāo)簽。

布置好偽裝后就可一開(kāi)始根據(jù)每個(gè)

標(biāo)簽進(jìn)行信息篩選了:

圖片鏈接是

的上上個(gè)兄弟標(biāo)簽

的孫子的src屬性的值

電影名有多個(gè)，都在

標(biāo)簽里，用get_text()把它們串起來(lái)

導(dǎo)演演員是

標(biāo)簽的第一段字符串

類型是

標(biāo)簽的第二段字符串

評(píng)分和評(píng)分人數(shù)都在

標(biāo)簽里，又用get_text()串起來(lái)

一句話總結(jié)直屬于標(biāo)簽

html中的&NBSP（實(shí)際上是小寫(xiě)，這里大寫(xiě)避免markdown識(shí)別）對(duì)應(yīng)字符串中的xa0,可用replace方法替換掉

url = "https://movie.douban.com/top250"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"}
r=requests.get(url,headers=headers)
soup = BeautifulSoup(r.text,"lxml")

for each in soup.find_all("div",class_="info"):
    img_url = each.previous_sibling.previous_sibling.a.img["src"]#圖片鏈接
    
    """with open("*.jpg","wb") as img:#還可以順便下載回來(lái)，名字自起
    img.write(requests.get(img_url,headers=headers).content)"""
    
    
    title=each.find("div",class_="hd").get_text(strip=True).replace("xa0","")#標(biāo)題
    actor = list(each.find("p",class_="").strings)[0].strip().replace("xa0","")#導(dǎo)演演員
    type_ = list(each.find("p",class_="").strings)[1].strip().replace("xa0","")#類型
    score = each.find("div",class_="star").get_text("/",strip=True)#評(píng)分及人數(shù)
    quote = each.find("span",class_="inq").string#一句話總結(jié)
    print([img_url,title,actor,type_,score,quote])#這里只簡(jiǎn)單打出來(lái)看下，怎樣存儲(chǔ)由你來(lái)決定

??但是這樣只有25部電影啊，是的，"https://movie.douban.com/top250"指向第一頁(yè)，我們現(xiàn)在只爬了一頁(yè)，其實(shí)還有9頁(yè)還沒(méi)爬啊，這是就要構(gòu)造網(wǎng)址了。

??我們點(diǎn)到第二頁(yè)，發(fā)現(xiàn)網(wǎng)址變成了https://movie.douban.com/top2...，第三頁(yè)start條件值變成50，我們可以得出結(jié)論，每下一頁(yè)，start條件值就加25。第一頁(yè)start=0，第二頁(yè)start=25.....第十頁(yè)start=225。這樣就可以循環(huán)構(gòu)造網(wǎng)頁(yè)并爬取了，這交給讀者實(shí)現(xiàn)
??下面筆者提供另一種思路：網(wǎng)頁(yè)不是有下一頁(yè)的按鈕嗎，右鍵檢查一下，發(fā)現(xiàn)它已經(jīng)包含了要構(gòu)造的部分了，是一個(gè)屬性值，提取出來(lái)接到原網(wǎng)址上即得到下一頁(yè)的網(wǎng)址，這樣能完全爬取所有頁(yè)數(shù)，不用像上面一樣設(shè)置循環(huán)次數(shù)。

貼上完整代碼

import requests
from bs4 import BeautifulSoup


url = "https://movie.douban.com/top250"
with open("douban.txt","w",encoding="utf-8") as f:
    while url :
        headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"}

        r=requests.get(url,headers=headers)
        soup = BeautifulSoup(r.text,"lxml")

        for each in soup.find_all("div",class_="info"):
            img_url = each.previous_sibling.previous_sibling.a.img["src"]
            title=each.find("div",class_="hd").get_text(strip=True).replace("xa0","")
            actor = list(each.find("p",class_="").strings)[0].strip().replace("xa0","")
            #將生成器list化后索引，strip()去除兩邊空格再用空字符替換 
            type_ = list(each.find("p",class_="").strings)[1].strip().replace("xa0","")
            score = each.find("div",class_="star").get_text("/",strip=True)
            if each.find("span",class_="inq"):#注意有部電影沒(méi)有總結(jié)，也就沒(méi)有標(biāo)簽這里用if檢測(cè)一下防止None使用string方法報(bào)錯(cuò)
                quote = each.find("span", class_="inq").string
            else:
                quote = "沒(méi)有總結(jié)哦"
            print([img_url,title,actor,type_,score,quote])

            try:#到最后一頁(yè)時(shí)沒(méi)有下一頁(yè)按鈕，會(huì)報(bào)TypeError，這時(shí)用try語(yǔ)句讓url=None使while循環(huán)停止
                url = "https://movie.douban.com/top250" + soup.find("span",class_="next").a["href"]
            except TypeError:
                url = None

本實(shí)例的篩選方法已經(jīng)講的很細(xì)致了，幾乎提及了BeautifulSoup的所有方法，希望大家能通過(guò)此實(shí)例能加深對(duì)BeautifulSoup的理解，然后自己手打一些爬蟲(chóng)出來(lái)，小的十幾行多的幾十行都可以，爬貼吧什么的都可以。

還是那句話“只看不實(shí)踐的程序員不是好程序員”

下一篇應(yīng)該會(huì)將正則表達(dá)式，更加強(qiáng)大也更加難的信息匹配方法
下下篇了解一下動(dòng)態(tài)爬取?

云服務(wù)器 GPU云服務(wù)器從零開(kāi)始學(xué)python網(wǎng)絡(luò)爬蟲(chóng) python從零開(kāi)始從零開(kāi)始學(xué)python python爬蟲(chóng)實(shí)戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/41578.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Codeing_ls

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pacificrack：VPS中秋促銷，$19.20/年，4核/4G/25G SSD/2.5T月流量

閱讀 2286·2021-09-24 10:31
買了虛擬主機(jī)怎么用-如何購(gòu)買虛擬主機(jī)？需要注意什么？

閱讀 3951·2021-09-22 15:16
三年前，我差點(diǎn)成了爬蟲(chóng)大師

閱讀 3500·2021-09-22 10:02
全國(guó)計(jì)算機(jī)等級(jí)考試二級(jí)Python（2021年9月）備考筆記第十二天

閱讀 1086·2021-09-22 10:02
計(jì)劃在2021年進(jìn)行響應(yīng)式開(kāi)發(fā)？但不確定應(yīng)該選擇哪種技術(shù)來(lái)快速且低成本的開(kāi)發(fā)應(yīng)用程序？一文給你解決問(wèn)

閱讀 1910·2021-09-08 09:36
H5手機(jī)端開(kāi)發(fā)問(wèn)題匯總及解決方案

閱讀 2068·2019-08-30 14:18
# 是的，是你的BFC - CSS中常用

閱讀 666·2019-08-30 10:51
六位字符密碼輸入器

閱讀 1921·2019-08-29 11:08

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 從零開(kāi)始爬蟲(chóng)(三)——實(shí)戰(zhàn)：requests+BeautifulSoup實(shí)現(xiàn)靜態(tài)爬取

相關(guān)文章

Python爬蟲(chóng)基礎(chǔ)

python爬蟲(chóng)學(xué)習(xí)教程，爬取網(wǎng)易云音樂(lè)！

發(fā)表評(píng)論

0條評(píng)論

Codeing_ls

男|高級(jí)講師

TA的文章

pacificrack：VPS中秋促銷，$19.20/年，4核/4G/25G SSD/2.5T月流量

買了虛擬主機(jī)怎么用-如何購(gòu)買虛擬主機(jī)？需要注意什么？

三年前，我差點(diǎn)成了爬蟲(chóng)大師

全國(guó)計(jì)算機(jī)等級(jí)考試二級(jí)Python（2021年9月）備考筆記第十二天

計(jì)劃在2021年進(jìn)行響應(yīng)式開(kāi)發(fā)？但不確定應(yīng)該選擇哪種技術(shù)來(lái)快速且低成本的開(kāi)發(fā)應(yīng)用程序？一文給你解決問(wèn)

H5手機(jī)端開(kāi)發(fā)問(wèn)題匯總及解決方案

# 是的，是你的BFC - CSS中常用

六位字符密碼輸入器

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 從零開(kāi)始爬蟲(chóng)(三)——實(shí)戰(zhàn)：requests+BeautifulSoup實(shí)現(xiàn)靜態(tài)爬取

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！