成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

Python爬蟲學習(一)

netScorpion / 2155人閱讀

摘要:獲得網(wǎng)頁內(nèi)容庫自動爬取頁面,自動提交相關請求要學會看官方文檔這里通過方法構(gòu)造了一個向服務器請求資源的對象返回的是對象對頁面進行解析網(wǎng)絡爬蟲,盜亦有道協(xié)議中對于網(wǎng)絡爬蟲的相關標準規(guī)定一個通用的爬蟲代碼框架網(wǎng)絡連接并不一定是成立的,對于異常情況

獲得網(wǎng)頁內(nèi)容
The website is the API

Reqests
自動爬取html頁面,自動提交相關請求

Requests: HTTP for Humans? — Requests 2.21.0 documentation
要學會看官方文檔

r = requests.get(url)
#這里通過get方法構(gòu)造了一個向服務器請求資源的Request對象
#返回的是response對象

Beautful soup
對web頁面進行解析

網(wǎng)絡爬蟲,盜亦有道
robots協(xié)議中對于網(wǎng)絡爬蟲的相關標準規(guī)定

一個通用的爬蟲代碼框架

網(wǎng)絡連接并不一定是成立的,對于異常情況的處理非常重要

#如果狀態(tài)碼不是200,則產(chǎn)生異常
r.raise_for_status()
................................
#通用爬蟲框架
import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()    #異常處理
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "Error"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

HTTP協(xié)議

注意get與post的區(qū)別

python數(shù)據(jù)類型,字典dict
使用{} :的一系列鍵值對

robots協(xié)議
網(wǎng)站告知爬蟲那些頁面可以抓取,那些不能
網(wǎng)站根目錄下的robot.txt文件

爬蟲的header修改

url = "https://www.amazon.cn/dp/B078FFX8B6"
kv = {"User-agent" : "Mozilla/5.0"}
r = requests.get(url, headers = kv)

網(wǎng)絡圖片的爬取和存儲

import requests
path = "/Users/apple/Pictures/a.jpg"
url = "http://img0.dili360.com/ga/M01/48/E0/wKgBzFmyTcaACuVKACZ-qAthuNY888.tub.jpg@!rw9"
r = requests.get(url)

with open(path, "wb") as f:
    f.write(r.content)

f.close()

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/54939.html

相關文章

  • 零基礎如何學爬蟲技術

    摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術服務,現(xiàn)整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務,服務范圍涵蓋社交網(wǎng)絡電子商務分類信息學術研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術服務,現(xiàn)整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...

    KunMinX 評論0 收藏0
  • Python爬蟲學習路線

    摘要:以下這些項目,你拿來學習學習練練手。當你每個步驟都能做到很優(yōu)秀的時候,你應該考慮如何組合這四個步驟,使你的爬蟲達到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學習不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的設計方案,比如說。 (一)如何學習Python 學習Python大致可以分為以下幾個階段: 1.剛上手的時候肯定是先過一遍Python最基本的知識,比如說:變量、數(shù)據(jù)結(jié)構(gòu)、語法...

    liaoyg8023 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 精通Python網(wǎng)絡爬蟲(0):網(wǎng)絡爬蟲學習路線

    摘要:以上是如果你想精通網(wǎng)絡爬蟲的學習研究路線,按照這些步驟學習下去,可以讓你的爬蟲技術得到非常大的提升。 作者:韋瑋 轉(zhuǎn)載請注明出處 隨著大數(shù)據(jù)時代的到來,人們對數(shù)據(jù)資源的需求越來越多,而爬蟲是一種很好的自動采集數(shù)據(jù)的手段。 那么,如何才能精通Python網(wǎng)絡爬蟲呢?學習Python網(wǎng)絡爬蟲的路線應該如何進行呢?在此為大家具體進行介紹。 1、選擇一款合適的編程語言 事實上,Python、P...

    spacewander 評論0 收藏0
  • SegmentFault 技術周刊 Vol.30 - 學習 Python 來做些神奇好玩的事情吧

    摘要:學習筆記七數(shù)學形態(tài)學關注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...

    lifesimple 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<