成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

BeautifulSoup 使用指北 - 0x01_概覽

jay_tian / 1444人閱讀

摘要:,所有筆記均托管于倉庫。是一個用來從或文件中提取數(shù)據(jù)的庫。如果對速度有嚴(yán)格要求,應(yīng)直接使用庫來解析。對而言,解析器的速度比或更快。可以通過安裝庫來顯著提升檢測編碼方案的速度。

GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。
歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處。
概述

?官方文檔中混雜了 Py2 和 Py3 的術(shù)語和代碼,本筆記針對 Py3 梳理了文檔中的內(nèi)容,在了解 BeautifulSoup 的過程中,建議將本筆記與官方文檔配合食用。

Beautiful Soup 是一個用來從 HTML 或 XML 文件中提取數(shù)據(jù)的 Python 庫。在使用 BeautifulSoup 時,我們選擇自己喜歡的解析器,從而以自己熟悉的方式來導(dǎo)航、查找和修改解析樹。

相關(guān)資源:

Home: https://www.crummy.com/softwa...

PyPI: https://pypi.org/project/beau...

Docs-EN: https://www.crummy.com/softwa...

Docs-CN: https://www.crummy.com/softwa...

安裝:

pip install beautifulsoup4

如果遇到安裝問題,可以參考:

Installing Beautiful Soup

Problems after installation

如果能順利執(zhí)行以下代碼,則說明安裝成功:

from bs4 import BeautifulSoup
soup = BeautifulSoup("

Hello

", "lxml") print(soup.p.string) #> Hello

?在安裝庫和導(dǎo)入庫時使用的名稱不一定相同,例如: 在安裝 BeautifulSoup4 時,使用的名稱是 beautifulsoup4;在導(dǎo)入時,使用的名稱是 bs4 (路徑為 ~PythonLibsite-packagess4)。

如果在使用過程中遇到本文未涵蓋的問題,請參考: https://www.crummy.com/softwa...

Three sisters

下面這段名為 "Three sisters" 文檔是本筆記的 HTML 示例文檔(官方文檔中也用的這段代碼):

html_doc = """
The Dormouse"s story

The Dormouse"s story

Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.

...

"""

這段 HTML 文檔存在 "tag soup",HTML 解析器會自動修復(fù) "tag soup"

提高性能

BeautifulSoup 的速度永遠(yuǎn)會低于其使用的解析器的速度。如果對速度有嚴(yán)格要求,應(yīng)直接使用 lxml 庫來解析。

對 BeautifulSoup 而言,lxml 解析器的速度比 html.parser 或 html5lib 更快。

可以通過安裝 cchardet 庫來顯著提升檢測編碼方案的速度。

僅解析部分文檔并不會節(jié)省大量的解析時間,但是可以節(jié)省大量內(nèi)存,并有效提升檢索文檔的速度。

BeautifulSoup()

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/45122.html

相關(guān)文章

  • BeautifulSoup 使用指北 - 0x02_操作解析樹

    摘要:,所有筆記均托管于倉庫。中包含的字符串或等節(jié)點被視作該的或節(jié)點。為了便于在或節(jié)點中進(jìn)行導(dǎo)航,提供了許多與此相關(guān)的方法。節(jié)點名可使用節(jié)點名來選取目標(biāo)節(jié)點,此時會返回子孫節(jié)點中的第一個同名節(jié)點。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處。 在解析樹中導(dǎo)航 參考: Navigating the tree 在學(xué)習(xí)與...

    高勝山 評論0 收藏0
  • BeautifulSoup 使用指北 - 0x03_搜索解析樹

    摘要:參考概述中定義了許多搜索解析樹的方法,但這些方法都非常類似,它們大多采用與相同的參數(shù)和,但是僅有和支持參數(shù)。本節(jié)會以作為示例過濾器過濾器用于在解析樹中篩選目標(biāo)節(jié)點,被用作搜索方法的實參。如果函數(shù)返回,則保留該節(jié)點,否則拋棄該節(jié)點。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處。參考: https://www.cr...

    xfee 評論0 收藏0
  • Python爬蟲之自制英漢字典

    摘要:筆者看到了,覺得還蠻有意思的,因此,決定自己也寫一個玩玩首先我們的爬蟲要能將英語單詞翻譯成中文,因此,我們就需要一個網(wǎng)站幫助我們做這件事情。 ??最近在微信公眾號中看到有人用Python做了一個爬蟲,可以將輸入的英語單詞翻譯成中文,或者把中文詞語翻譯成英語單詞。筆者看到了,覺得還蠻有意思的,因此,決定自己也寫一個玩玩~~??首先我們的爬蟲要能將英語單詞翻譯成中文,因此,我們就需要一個網(wǎng)...

    graf 評論0 收藏0
  • ES6指北【2】—— 箭頭函數(shù)

    摘要:箭頭函數(shù)基本語法函數(shù)語法具名函數(shù)匿名函數(shù)三句話第一句話聲明第二句話聲明匿名函數(shù)第三句話把匿名函數(shù)賦值給箭頭函數(shù)語法特點只能做賦值,不能做聲明第一種寫法完全寫法不省略參數(shù)個數(shù),不省略函數(shù)體花括號參數(shù)個數(shù)函數(shù)體內(nèi)語句個數(shù)第二種寫法省略參數(shù)括號參 1.箭頭函數(shù)基本語法 1.1 ES3 函數(shù)語法 // 具名函數(shù) function xxx(arg1, arg2) { console.lo...

    DobbyKim 評論0 收藏0
  • Node.js 高級進(jìn)階之 fs 文件模塊學(xué)習(xí)

    摘要:回調(diào)函數(shù)提供兩個參數(shù)和,表示有沒有錯誤發(fā)生,是文件內(nèi)容。文件關(guān)閉第一個參數(shù)文件時傳遞的文件描述符第二個參數(shù)回調(diào)函數(shù)回調(diào)函數(shù)有一個參數(shù)錯誤,關(guān)閉文件后執(zhí)行。 showImg(//img.mukewang.com/5d3f890d0001836113660768.jpg); 人所缺乏的不是才干而是志向,不是成功的能力而是勤勞的意志。 —— 部爾衛(wèi) 文章同步到github博客:https:/...

    verano 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<