python抓取簡單網(wǎng)頁數(shù)據(jù)的小實例

Rainie 發(fā)布于2019-07-24 17:55 / 2046人閱讀

摘要：抓取網(wǎng)頁數(shù)據(jù)的思路有好多種，一般有直接代碼請求模擬瀏覽器請求數(shù)據(jù)通常需要登錄驗證控制瀏覽器實現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復雜情況，放一個讀取簡單網(wǎng)頁數(shù)據(jù)的小例子目標數(shù)據(jù)將網(wǎng)站上這個頁面上所有這些選手的超鏈接保存下來。

抓取網(wǎng)頁數(shù)據(jù)的思路有好多種，一般有：直接代碼請求http、模擬瀏覽器請求數(shù)據(jù)（通常需要登錄驗證）、控制瀏覽器實現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復雜情況，放一個讀取簡單網(wǎng)頁數(shù)據(jù)的小例子：

目標數(shù)據(jù)

將ittf網(wǎng)站上這個頁面上所有這些選手的超鏈接保存下來。

數(shù)據(jù)請求

真的很喜歡符合人類思維的庫，比如requests，如果是要直接拿網(wǎng)頁文本，一句話搞定：

doc = requests.get(url).text

解析html獲得數(shù)據(jù)

以beautifulsoup為例，包含獲取標簽、鏈接，以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見這里。下面這個片段，從ittf網(wǎng)站上獲取指定頁面上指定位置的鏈接。

url = "http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page="+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all("a")
rank_link_pre = "http://www.ittf.com/ittf_ranking/"

mlfile = open(linkfile,"a")
for atag in atags:
    #print atag
    if atag!=None and atag.get("href") != None:
        if "WR_Table_3_A2_Details.asp" in atag["href"]:
            link = rank_link_pre + atag["href"]
            links.append(link)
            mlfile.write(link+"
")
            print "fetch link: "+link
mlfile.close()

云服務器 GPU云服務器 python抓取網(wǎng)頁數(shù)據(jù) python網(wǎng)頁抓取 python簡單抓取 python簡單實例

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/37492.html

發(fā)表評論

登陸后可評論

0條評論

Rainie

男|高級講師

我要關(guān)注我要私信

TA的文章

pandas使用pct_change計算數(shù)據(jù)列的百分比變化、環(huán)比變化率：計算當前元素和前一個元素之間

閱讀 3648·2021-11-18 10:02
css 各單位距離比較

閱讀 3181·2019-08-29 18:34
前端每日實戰(zhàn)：157# 視頻演示如何用純 CSS 創(chuàng)作一個棋盤錯覺動畫

閱讀 3483·2019-08-29 17:00
css-reset 代碼

閱讀 497·2019-08-29 12:35
(css/js)如何起個好名字

閱讀 825·2019-08-28 18:22
為什么在頁面上操作幾次之后就變得奇慢無比，接口長時間處于pending狀態(tài)？

閱讀 2071·2019-08-26 13:58
逐行解析Axios源碼

閱讀 1750·2019-08-26 10:39
h5喚醒APP

閱讀 2747·2019-08-26 10:11

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python抓取簡單網(wǎng)頁數(shù)據(jù)的小實例

相關(guān)文章

**如何用Python抓抖音上的小姐姐**

文章內(nèi)容提取庫 goose 簡介

Python3網(wǎng)絡爬蟲實戰(zhàn)---24、requests：基本使用

一鍵下載：將知乎專欄導出成電子書

發(fā)表評論

0條評論

Rainie

男|高級講師

TA的文章

pandas使用pct_change計算數(shù)據(jù)列的百分比變化、環(huán)比變化率：計算當前元素和前一個元素之間

css 各單位距離比較

前端每日實戰(zhàn)：157# 視頻演示如何用純 CSS 創(chuàng)作一個棋盤錯覺動畫

css-reset 代碼

(css/js)如何起個好名字

為什么在頁面上操作幾次之后就變得奇慢無比，接口長時間處于pending狀態(tài)？

逐行解析Axios源碼

h5喚醒APP

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python抓取簡單網(wǎng)頁數(shù)據(jù)的小實例

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！