Python爬蟲實(shí)戰(zhàn)案例-爬取幣世界標(biāo)紅快訊

red_bricks 發(fā)布于2019-07-30 17:01 / 3317人閱讀

摘要：爬取幣世界標(biāo)紅快訊內(nèi)容移動(dòng)版引入依賴寫你自己的數(shù)據(jù)庫地址需要自己安裝客戶端數(shù)據(jù)庫表名偽造成手機(jī)寫你自己的文件地址插入了一條新數(shù)據(jù)無新數(shù)據(jù)產(chǎn)生寫你自己的文件地址時(shí)間不一致宕機(jī)使用當(dāng)前系統(tǒng)時(shí)間進(jìn)行爬取時(shí)間一致正常運(yùn)行主要要求掌握內(nèi)容語法

爬取幣世界標(biāo)紅快訊內(nèi)容(移動(dòng)版)

# 引入依賴
from lxml import etree
import requests
import pymongo
import time
client = pymongo.MongoClient("寫你自己的數(shù)據(jù)庫地址", 27017) # 需要自己安裝mongodb客戶端
mydb = client["mydb"]
information = mydb["information"] # 數(shù)據(jù)庫表名
currentTime = time.strftime("%m%d%H", time.localtime())
saveTime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

# 偽造成手機(jī)
header = {
    "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
}

def get_url(url):
    html = requests.get(url, headers=header)
    selector = etree.HTML(html.text)
    infos = selector.xpath("http://div[@id="kuaixun_list"]/div/article/section[@class="focus"]")
    onlyOne = selector.xpath("http://div[@id="kuaixun_list"]/div/article/section[@class="focus"]")[0]
    saveId = onlyOne.xpath("../@id")[0]
    file = open(r"C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest", "w") # 寫你自己的文件地址
    file.write(currentTime +" "+saveId)
    file.close()
    for info in infos:
        try:
            title = (info.xpath("h3[@class="text_title"]/text()")[0]).strip()
            content = (info.xpath("p[@class="text_show"]/text()")[0]).strip()
            date = info.xpath("../h3[@class="timenode"]/text()")[0]
            infoId = info.xpath("../@id")[0]

            data = {
                "title": title,
                "id": infoId,
                "date": saveTime,
                "content": content,
                "source": "bishijie"
            }

            print(data)

            if (int(infoId) > int(saveId) - 20):
                print("插入了一條新數(shù)據(jù)!")
                information.insert_one(data)
            else:
                print("無新數(shù)據(jù)產(chǎn)生!")

        except IndexError:
            pass

if __name__ == "__main__":
    fs = open("C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest", "r+") # 寫你自己的文件地址
    line = fs.read()
    fileDate = line[0:6]

    if (fileDate != currentTime):
        print("時(shí)間不一致,宕機(jī)使用當(dāng)前系統(tǒng)時(shí)間進(jìn)行爬取!")
        urls = ["http://m.bishijie.com/kuaixun?fm=" + currentTime]
        for url in urls:
            get_url(url)
            time.sleep(2)
    else:
        print("時(shí)間一致, 正常運(yùn)行!")
        urls = ["http://m.bishijie.com/kuaixun?fm=" + currentTime]
        for url in urls:
            get_url(url)
            time.sleep(2)

主要要求掌握內(nèi)容: xpath語法，python操作文件，python的基礎(chǔ)語法 本文內(nèi)容比較基礎(chǔ)，寫的不好，多多指教！大家一起進(jìn)步?。。?/b> 我的其他關(guān)于python的文章
Python爬蟲入門

Python爬蟲之使用MongoDB存儲(chǔ)數(shù)據(jù)

云服務(wù)器 GPU云服務(wù)器爬取幣 python爬蟲實(shí)戰(zhàn) python爬蟲案例 python3爬蟲實(shí)戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/41967.html

上一篇：4-django——模板

下一篇：python中的裝飾器

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時(shí)間永遠(yuǎn)都過得那么快，一晃從年注冊(cè)，到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂，橡皮擦給設(shè)置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評(píng)論0 收藏0

Python爬蟲實(shí)戰(zhàn)（2）：爬取京東商品列表

摘要：，源代碼爬取京東商品列表，以手機(jī)商品列表為例示例網(wǎng)址版本京東手機(jī)列表源代碼下載位置請(qǐng)看文章末尾的源。，抓取結(jié)果運(yùn)行上面的代碼，就會(huì)爬取京東手機(jī)品類頁面的所有手機(jī)型號(hào)價(jià)格等信息，并保存到本地文件京東手機(jī)列表中。 showImg(https://segmentfault.com/img/bVxXHW); 1，引言在上一篇《python爬蟲實(shí)戰(zhàn)：爬取Drupal論壇帖子列表》，爬取了一個(gè)用...

shevy 2019-07-31 12:21 評(píng)論0 收藏0

【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)（01）webdriv

摘要：且本小白也親身經(jīng)歷了整個(gè)從小白到爬蟲初入門的過程，因此就斗膽在上開一個(gè)欄目，以我的圖片爬蟲全實(shí)現(xiàn)過程為例，以期用更簡(jiǎn)單清晰詳盡的方式來幫助更多小白應(yīng)對(duì)更大多數(shù)的爬蟲實(shí)際問題。前言：一個(gè)月前，博主在學(xué)過python（一年前）、會(huì)一點(diǎn)網(wǎng)絡(luò)（能按F12）的情況下，憑著熱血和興趣，開始了pyth...

Half 2021-09-30 09:48 評(píng)論0 收藏0

如何快速掌握Python數(shù)據(jù)采集與網(wǎng)絡(luò)爬蟲技術(shù)

摘要：通過本文的學(xué)習(xí)，可以快速掌握網(wǎng)絡(luò)爬蟲基礎(chǔ)，結(jié)合實(shí)戰(zhàn)練習(xí)，寫出一些簡(jiǎn)單的爬蟲項(xiàng)目。從技術(shù)手段來說，網(wǎng)絡(luò)爬蟲有多種實(shí)現(xiàn)方案，如。二網(wǎng)絡(luò)爬蟲技術(shù)基礎(chǔ)在本次課中，將使用技術(shù)手段進(jìn)行項(xiàng)目的編寫。摘要：本文詳細(xì)講解了python網(wǎng)絡(luò)爬蟲，并介紹抓包分析等技術(shù)，實(shí)戰(zhàn)訓(xùn)練三個(gè)網(wǎng)絡(luò)爬蟲案例，并簡(jiǎn)單補(bǔ)充了常見的反爬策略與反爬攻克手段。通過本文的學(xué)習(xí)，可以快速掌握網(wǎng)絡(luò)爬蟲基礎(chǔ)，結(jié)合實(shí)戰(zhàn)練習(xí)，寫出一些簡(jiǎn)單的...

W4n9Hu1 2019-07-30 16:09 評(píng)論0 收藏0

python爬蟲實(shí)戰(zhàn)：爬取西刺代理的代理ip（二）

摘要：爬蟲實(shí)戰(zhàn)二爬取西刺代理的代理對(duì)于剛?cè)腴T的同學(xué)來說，本次實(shí)戰(zhàn)稍微有點(diǎn)難度，但是簡(jiǎn)單的爬取圖片文本之類的又沒營(yíng)養(yǎng)，所以這次我選擇了爬取西刺代理的地址，爬取的代理也能在以后的學(xué)習(xí)中用到本次實(shí)戰(zhàn)用的主要知識(shí)很多，其中包括自動(dòng)保存利用抓包工具獲取和匹爬蟲實(shí)戰(zhàn)（二）：爬取西刺代理的代理ip 對(duì)于剛?cè)腴T的同學(xué)來說，本次實(shí)戰(zhàn)稍微有點(diǎn)難度，但是簡(jiǎn)單的爬取圖片、文本之類的又沒營(yíng)養(yǎng)，所以這次我選擇了爬...

fsmStudy 2019-07-30 17:07 評(píng)論0 收藏0

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

red_bricks

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章
閱讀更多

keras和tensorflow對(duì)應(yīng)版本

閱讀 3799·2023-04-26 02:00

如何通過堡壘機(jī)訪問服務(wù)器？堡壘機(jī)無法訪問服務(wù)器怎么辦？

閱讀 3167·2021-11-22 13:54

SugarHosts：糖果主機(jī)12周年活動(dòng)/全場(chǎng)虛擬主機(jī)低至5折/可選香港、中美極速專線等/三年付每

閱讀 1778·2021-08-03 14:03

點(diǎn)擊一列顯示其index的三種方法

閱讀 768·2019-08-30 15:52

如何在沒有實(shí)際項(xiàng)目經(jīng)驗(yàn)的情況下找到工作

閱讀 3186·2019-08-29 12:30

那些很熟卻又不是很熟的知識(shí)

閱讀 2476·2019-08-26 13:35

HTML5使用canvas實(shí)現(xiàn)截圖，上傳七?？臻g，自定義KEY參數(shù)

閱讀 3437·2019-08-26 13:25

jQuery 全選和反選demo

閱讀 3054·2019-08-26 11:39

最新活動(dòng)

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Python爬蟲實(shí)戰(zhàn)案例-爬取幣世界標(biāo)紅快訊

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python爬蟲實(shí)戰(zhàn)（2）：爬取京東商品列表

**【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)（01）webdriv**

**如何快速掌握Python數(shù)據(jù)采集與網(wǎng)絡(luò)爬蟲技術(shù)**

python爬蟲實(shí)戰(zhàn)：爬取西刺代理的代理ip（二）

發(fā)表評(píng)論

0條評(píng)論

red_bricks

男|高級(jí)講師

TA的文章

keras和tensorflow對(duì)應(yīng)版本

如何通過堡壘機(jī)訪問服務(wù)器？堡壘機(jī)無法訪問服務(wù)器怎么辦？

SugarHosts：糖果主機(jī)12周年活動(dòng)/全場(chǎng)虛擬主機(jī)低至5折/可選香港、中美極速專線等/三年付每

點(diǎn)擊一列顯示其index的三種方法

如何在沒有實(shí)際項(xiàng)目經(jīng)驗(yàn)的情況下找到工作

那些很熟卻又不是很熟的知識(shí)

HTML5使用canvas實(shí)現(xiàn)截圖，上傳七?？臻g，自定義KEY參數(shù)

jQuery 全選和反選demo

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Python爬蟲實(shí)戰(zhàn)案例-爬取幣世界標(biāo)紅快訊

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！