初探python之做一個(gè)簡單小爬蟲

Juven 發(fā)布于2019-07-30 15:31 / 2740人閱讀

摘要：準(zhǔn)備工作初探，這個(gè)文章屬于自己的一個(gè)總結(jié)。所以教程面向新手，無技術(shù)含量。凡是報(bào)錯(cuò)信息看到，就是表示縮進(jìn)不一致。注由于原網(wǎng)址不方便公布，代碼中的網(wǎng)址全部替換為了。

準(zhǔn)備工作

初探python，這個(gè)文章屬于自己的一個(gè)總結(jié)。所以教程面向新手，無技術(shù)含量。
python環(huán)境Linux基本都有，Windows下官網(wǎng)也提供了便利的安裝包，怎么安裝配置網(wǎng)上有很多教程在此就不一一說明。
我使用的python版本為Python 3.6.4，后面的代碼也是基于python3的。

分析需求

做一個(gè)小爬蟲離不開獲取網(wǎng)頁內(nèi)容和匹配存儲(chǔ)內(nèi)容，那么我們先裝上python爬蟲的老朋友requests：
pip install requests
再裝上pymysql擴(kuò)展，方便將匹配到的內(nèi)容插入到mysql數(shù)據(jù)庫中：
pip install pymysql

第一步：獲取網(wǎng)頁內(nèi)容

在python中有意思的是你需要什么，就去import什么，不像php一樣獲取網(wǎng)頁內(nèi)容直接來個(gè)file_get_contents完事兒
廢話不多說，貼出代碼來看一下：

# -*- coding:utf-8 -*-

# 加載 requests 模塊
import requests
# GET方式獲取 Response 對象
response = requests.get("https://www.xxx.com/")
if response:
    # 輸出html代碼到控制臺(tái)
    print(response.text)
else:
    # 輸出錯(cuò)誤信息
    print("requests error")

在python中縮進(jìn)一定要嚴(yán)格，初學(xué)者（4個(gè)空格為語句塊縮進(jìn)）經(jīng)常犯的錯(cuò)誤是tab鍵和空間鍵混用，造成的縮進(jìn)不一致。凡是報(bào)錯(cuò)信息看到：IndentationError: unexpected indent ，就是表示縮進(jìn)不一致。
如果本身沒有編碼基礎(chǔ)，那么我推薦你看一下python的基本概念：http://www.kuqin.com/abyteofp...
如果已經(jīng)有了編碼基礎(chǔ)但對縮進(jìn)這方面沒有深究，可以看python的縮進(jìn)規(guī)范：http://www.kuqin.com/abyteofp...

好，寫完代碼之后我們拿到控制臺(tái)試一下，完美輸出html代碼

第二步：正則匹配內(nèi)容

既然能夠獲取html代碼，那我們就要找出需要的部分，這就用上了正則。Python 自1.5版本起增加了 re 模塊，它提供 Perl 風(fēng)格的正則表達(dá)式模式。具體細(xì)節(jié)可以在菜鳥教程中查看：http://www.runoob.com/python/...，話不多說再貼代碼：

# -*- coding:utf-8 -*-
# 加載 requests 模塊
import requests
# 加載 re 模塊
import re

response = requests.get("https://www.xxx.com/")
# 正則匹配文本
match = re.findall(r"([sS]*?)", response.text)
if match:
    # 輸出匹配的內(nèi)容到控制臺(tái)
    print(match[0])
else:
    # 輸出html代碼到控制臺(tái)
    print(response.text)

注：原網(wǎng)址為隨機(jī)一句文字顯示，每刷新一次就會(huì)變化一次。

第三步：循環(huán)匹配并加入數(shù)據(jù)庫中

首先我們把數(shù)據(jù)庫和表做好，可以用sql語句創(chuàng)建：

CREATE DATABASE IF NOT EXISTS `sentence`;
USE `sentence`;

CREATE TABLE IF NOT EXISTS `sexy` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `content` varchar(50) NOT NULL,
  `datetime` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  UNIQUE KEY `content` (`content`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

這里將content設(shè)置為了UNIQUE KEY，是為了保證抓取到的內(nèi)容不重復(fù)，如果有已存在的值便直接跳過

# -*- coding:utf-8 -*-
# 加載 requests 模塊
import requests
# 加載 re 模塊
import re
# 加載 pymysql 模塊
import pymysql

# 打開數(shù)據(jù)庫連接
db = pymysql.connect("127.0.0.1", "root", "root", "sentence", charset="utf8")
# 使用cursor()方法獲取操作游標(biāo)
cursor = db.cursor()

#死循環(huán)到天長地久
while(True):
    response = requests.get("https://www.xxx.com/")
    # 正則匹配文本
    match = re.findall(r"([sS]*?)", response.text)
    if match:
        sql = "INSERT INTO `sexy` (`content`) VALUES ("%s")" % (match[0])
        try:
           # 執(zhí)行sql語句
           cursor.execute(sql)
           # 提交到數(shù)據(jù)庫執(zhí)行
           db.commit()
        except:
           # 如果發(fā)生錯(cuò)誤則回滾
           db.rollback()
        # 輸出sql語句到控制臺(tái)
        print(sql)
    else:
        # 輸出html代碼到控制臺(tái)
        print(response.text)

運(yùn)行演示：

數(shù)據(jù)庫內(nèi)容：

總結(jié)

python是個(gè)好東西，~~萬物based on python~~。
感覺教程貼比較難寫，每個(gè)地方都有細(xì)節(jié)，但如果講細(xì)了文章又太繁瑣，若簡單些不好取舍初學(xué)者又看不懂什么意思，向那些寫易懂的入門教程文章的作者致敬。
注：由于原網(wǎng)址不方便公布，代碼中的網(wǎng)址全部替換為了xxx.com。
源碼在Github中：https://github.com/st1ven/Pyt...，歡迎Star

GPU云服務(wù)器云服務(wù)器簡單python爬蟲 python爬蟲簡單 python簡單爬蟲簡單python爬蟲程序

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/41301.html

發(fā)表評論

登陸后可評論

0條評論

Juven

男|高級講師

我要關(guān)注我要私信

TA的文章

Aria2下載軟件的Linux安裝、配置文件編輯、開機(jī)啟動(dòng)、瀏覽器插件連接

閱讀 2995·2021-10-11 10:57
Adobe 以 $1.275B 的價(jià)格購買 Frame.io

閱讀 2474·2021-08-27 16:20
如何直接訪問github的html項(xiàng)目

閱讀 1466·2019-08-30 13:03
CSS選擇器

閱讀 1633·2019-08-30 12:50
移動(dòng)端h5輪播插件swipe

閱讀 3406·2019-08-29 14:16
【譯】漸進(jìn)增強(qiáng)的鍵盤導(dǎo)航

閱讀 1617·2019-08-29 11:12
CSS優(yōu)先級詳解

閱讀 1673·2019-08-28 17:53
Android 初級面試者拾遺（前臺(tái)界面篇）之 View 和 ViewGroup

閱讀 2947·2019-08-27 10:58

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

初探python之做一個(gè)簡單小爬蟲

相關(guān)文章

Scrapy的架構(gòu)初探

讓Scrapy的Spider更通用

Puppeteer初探--爬取并生成《ES6標(biāo)準(zhǔn)入門》PDF

Puppeteer 初探

**Scrapy：python3下的第一次運(yùn)行測試**

發(fā)表評論

0條評論

Juven

男|高級講師

TA的文章

Aria2下載軟件的Linux安裝、配置文件編輯、開機(jī)啟動(dòng)、瀏覽器插件連接

Adobe 以 $1.275B 的價(jià)格購買 Frame.io

如何直接訪問github的html項(xiàng)目

CSS選擇器

移動(dòng)端h5輪播插件swipe

【譯】漸進(jìn)增強(qiáng)的鍵盤導(dǎo)航

CSS優(yōu)先級詳解

Android 初級面試者拾遺（前臺(tái)界面篇）之 View 和 ViewGroup

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

初探python之做一個(gè)簡單小爬蟲

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！