Python爬蟲教學(寫給入門的新手) 一

zone 發(fā)布于2019-07-31 10:15 / 1085人閱讀

摘要：在不懂和等協(xié)議的情況下，我直接打個比方來解釋一下什么是請求，以瀏覽器為例，人在瀏覽器輸入，然后敲擊鍵，直到頁面出現(xiàn)，整個過程，我們可以抽象為我們向百度服務器發(fā)起的一次請求。更專業(yè)，更詳細的解釋，自己去百度學習吧。

前言

??剛學完python基礎，想學習爬蟲的新手，這里有你想要的東西。
??本文著重點在于教新手如何學習爬蟲，并且會以外行人的思維進行形象地講解。最近我一兄弟想學，我就想寫個教學給他，然后想不如分享到網(wǎng)絡上，給熱愛學習的人們一起學習探討。各位大神路過，如發(fā)現(xiàn)文章中有不妥之處，敬請指出，畢竟我最近剛開始學會撰寫技術文章。

環(huán)境安裝

python3.7.1

pip install requests
pip install beautifulsoup4
pip install lxml

技術講解 requests庫

??requests一般用于發(fā)起http請求，并且拿到請求的結果。http常用的請求有兩種，GET和POST，爬蟲主要用的是GET請求。
??在不懂http,https和dns,TCP/IP等協(xié)議的情況下，我直接打個比方來解釋一下什么是GET請求，以360瀏覽器為例，人在360瀏覽器輸入www.baidu.com，然后敲擊enter鍵，直到頁面出現(xiàn)，整個過程，我們可以抽象為我們向百度服務器發(fā)起的一次GET請求。
??更專業(yè)，更詳細的解釋，自己去百度學習吧。
??如何使用requests庫來模擬瀏覽器的行為來獲取頁面內(nèi)容呢？
示例代碼如下

import requests
web = requests.get("https://www.baidu.com")  #向百度發(fā)起一次get請求，返回請求結果的實體類
print(web.status_code)    #請求返回的狀態(tài)碼，200是OK，404是頁面不存在，500是錯誤，更多自己百度搜索
print(type(web.content))    #頁面內(nèi)容的數(shù)據(jù)類型是bytes，因此需要解碼
print(type(web.content.decode()))
print(web.content.decode())    #解碼之后，得到的頁面內(nèi)容是結構化的字符串

輸出如下

??這樣看起來，我們獲取到的頁面內(nèi)容不是我們在瀏覽器看到的圖形化界面，而是字符串，更像是一些代碼。如果你學過html和css那就不用多說了。沒學過也不要緊，現(xiàn)在可以簡單學一下，也就花幾分鐘了解一下就夠用了。
??html是一種標記語言，可以被瀏覽器執(zhí)行，然后呈現(xiàn)出可視化的圖形界面。如果你把web.content.decode()這一串字符串保存在test.html里，然后雙擊打開，你會看到圖形化界面的，只不過有些圖片可能顯示不了，這里就不細說了。
??html其實很好理解，不要想得太復雜，就是一段有規(guī)律的格式化的文本。
??其基本格式就是


...
...

??html文本的標簽一般都是成雙成對，有始有終的，比如和是一隊，千萬不能拆散，拆散就亂套了。少數(shù)除外比如
是換行用的,可以不用配對。
這里我們主要講body標簽，網(wǎng)頁的主要內(nèi)容都是在這個標簽里顯示的，比如標題，段落，圖片等
在test.html里我們寫入一下代碼并且保存。



我的網(wǎng)站
這是我的網(wǎng)站

效果就是

html更多標簽所代表的意義可以去這里學習http://www.runoob.com/html/ht...

beautifulsoup4庫

??bs4(簡稱)庫是用于解析格式化文本，提取數(shù)據(jù)用的庫。
我們利用requests庫的get函數(shù)拿到網(wǎng)頁的內(nèi)容是一段格式化的字符串，接下來就可以用bs4來解析它。
解析的示例代碼如下

from bs4 import BeautifulSoup
html = """

我的網(wǎng)站
這是我的網(wǎng)站

"""    #從網(wǎng)頁拿到html的格式化的字符串，保存到html里
soup = BeautifulSoup(html, "lxml")    #使用lxml解析器來解析文本，html和xml格式是類似的
print(soup.find_all("h1"))    #使用find_all函數(shù)來找所有的h1標簽，返回的結果是數(shù)組
print(soup.find_all("p"))    #找所有的p標簽，返回的結果是數(shù)組

運行結果如圖

更復雜一點的，比如

from bs4 import BeautifulSoup
html = """

我的網(wǎng)站
這是我的網(wǎng)站

測試1


測試2


"""
soup = BeautifulSoup(html, "lxml")
div_tags = soup.find_all(name="div", attrs={"class": "test-item"})
for tag in div_tags:
    print(type(tag))
    print(tag)
    print(tag.string)
    print(tag.attrs, "
")

運行結果是

??注意，tag保存的不是字符串，而是bs4模塊中的一個標簽實體類，我們主要需要知道它的attrs屬性和string屬性，方便我們拿到一些我們想要的文本和信息，比如a標簽的href屬性就保存在attrs里。

總結

??本文主要講了如何使用requests獲取網(wǎng)頁文本內(nèi)容，以及如何解析html文本，更多更好用的爬蟲庫，下節(jié)課看情況再講。

GPU云服務器云服務器新手python入門 python入門教學視頻 python入門爬蟲 python爬蟲入門

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://m.hztianpu.com/yun/43505.html

【微信小程序爬蟲】表情包小程序圖文視頻教學，從零寫起，保姆教程！?。?/b>

摘要：文章目錄前言爬取分析視頻教學成果展示福利入門到就業(yè)學習路線規(guī)劃小白快速入門爬蟲路線前言皮皮蝦一個沙雕而又有趣的憨憨少年，和大多數(shù)小伙伴們一樣喜歡聽歌游戲，當然除此之外還有寫作的興趣，，日子還很長，讓我們一起加油努力叭話 ...

coordinate35 2021-10-14 09:43 評論0 收藏0

【精華分享】：轉行數(shù)據(jù)分析的一份學習清單

摘要：數(shù)據(jù)分析的發(fā)展方向一般有商業(yè)方向，行業(yè)分析業(yè)務方向，和機器學習數(shù)據(jù)挖掘方向。機器學習的書籍推薦統(tǒng)計學習方法，機器學習，機器學習實戰(zhàn)三本書。作者：xiaoyu 微信公眾號：Python數(shù)據(jù)科學知乎：python數(shù)據(jù)分析師上一篇主要分享了博主親身轉行數(shù)據(jù)分析的經(jīng)歷：【從零學起到成功轉行數(shù)據(jù)分析，我是怎么做的？】本篇繼上一篇將分享轉行數(shù)據(jù)分析的一些經(jīng)驗和學習方法，看完這篇你將會解...

suemi 2019-07-30 16:59 評論0 收藏0

寫給在迷茫中前行的前端學習/工作者

摘要：我從今年的月份開始在知乎上連續(xù)回答前端開發(fā)相關的問題，至今已有將近三個月，回顧寫過的一百多條回答，不少是給迷茫的前端工作者的建議。今天我把我的思考提煉整理成文，希望能給予在迷茫中前行中的前端學習工作者一些有用的建議。本文首發(fā)于知乎專欄——前端指南作者：Mark MFS老師轉載請注明來源。我從今年的2月份開始在知乎上連續(xù)回答前端開發(fā)相關的問題，至今已有將近三個月，回顧寫過的一百多條回...

羅志環(huán) 2019-08-20 16:03 評論0 收藏0

前端開發(fā)-從入門到Offer - 收藏集 - 掘金

摘要：一些知識點有哪些方法方法前端從入門菜鳥到實踐老司機所需要的資料與指南合集前端掘金前端從入門菜鳥到實踐老司機所需要的資料與指南合集歸屬于筆者的前端入門與最佳實踐。工欲善其事必先利其器-前端實習簡歷篇 - 掘金有幸認識很多在大廠工作的學長，在春招正式開始前為我提供很多內(nèi)部推薦的機會，非常感謝他們對我的幫助?，F(xiàn)在就要去北京了，對第一份正式的實習工作也充滿期待，也希望把自己遇到的一些問題和...

sf_wangchong 2019-08-20 16:10 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

zone

男|高級講師

我要關注我要私信

TA的文章
閱讀更多

操作符詳解（一）（跑路筆記）

閱讀 3471·2021-11-15 11:39

Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

閱讀 1679·2021-09-22 10:02

馬斯克：特斯拉自動駕駛系統(tǒng)的目標是比人類駕駛安全 10 倍

閱讀 1366·2021-08-27 16:24

HTML5行業(yè)現(xiàn)狀與未來 - 2016年終大盤點

閱讀 3669·2019-08-30 15:52

element ui table render-header自定義表頭信息使用

閱讀 3479·2019-08-29 16:20

三角形：它是如何工作的

閱讀 873·2019-08-28 18:12

聊聊在javascript中數(shù)組的使用

閱讀 607·2019-08-26 18:27

JavaScript繼承

閱讀 769·2019-08-26 13:32

最新活動

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲教學(寫給入門的新手) 一

我的網(wǎng)站

我的網(wǎng)站

我的網(wǎng)站

相關文章

【微信小程序爬蟲】表情包小程序圖文視頻教學，從零寫起，保姆教程！?。?/b>

【精華分享】：轉行數(shù)據(jù)分析的一份學習清單

寫給在迷茫中前行的前端學習/工作者

前端開發(fā)-從入門到Offer - 收藏集 - 掘金

發(fā)表評論

0條評論

zone

男|高級講師

TA的文章

操作符詳解（一）（跑路筆記）

Python 爬蟲數(shù)據(jù)寫入csv文件中文亂碼解決以及天眼查爬蟲數(shù)據(jù)寫入csv

馬斯克：特斯拉自動駕駛系統(tǒng)的目標是比人類駕駛安全 10 倍

HTML5行業(yè)現(xiàn)狀與未來 - 2016年終大盤點

element ui table render-header自定義表頭信息使用

三角形：它是如何工作的

聊聊在javascript中數(shù)組的使用

JavaScript繼承

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲教學(寫給入門的新手) 一

我的網(wǎng)站

我的網(wǎng)站

我的網(wǎng)站

相關文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！