摘要:爬取幣世界標(biāo)紅快訊內(nèi)容移動(dòng)版引入依賴寫你自己的數(shù)據(jù)庫地址需要自己安裝客戶端數(shù)據(jù)庫表名偽造成手機(jī)寫你自己的文件地址插入了一條新數(shù)據(jù)無新數(shù)據(jù)產(chǎn)生寫你自己的文件地址時(shí)間不一致宕機(jī)使用當(dāng)前系統(tǒng)時(shí)間進(jìn)行爬取時(shí)間一致正常運(yùn)行主要要求掌握內(nèi)容語法
爬取幣世界標(biāo)紅快訊內(nèi)容(移動(dòng)版)
# 引入依賴 from lxml import etree import requests import pymongo import time client = pymongo.MongoClient("寫你自己的數(shù)據(jù)庫地址", 27017) # 需要自己安裝mongodb客戶端 mydb = client["mydb"] information = mydb["information"] # 數(shù)據(jù)庫表名 currentTime = time.strftime("%m%d%H", time.localtime()) saveTime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()) # 偽造成手機(jī) header = { "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1" } def get_url(url): html = requests.get(url, headers=header) selector = etree.HTML(html.text) infos = selector.xpath("http://div[@id="kuaixun_list"]/div/article/section[@class="focus"]") onlyOne = selector.xpath("http://div[@id="kuaixun_list"]/div/article/section[@class="focus"]")[0] saveId = onlyOne.xpath("../@id")[0] file = open(r"C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest", "w") # 寫你自己的文件地址 file.write(currentTime +" "+saveId) file.close() for info in infos: try: title = (info.xpath("h3[@class="text_title"]/text()")[0]).strip() content = (info.xpath("p[@class="text_show"]/text()")[0]).strip() date = info.xpath("../h3[@class="timenode"]/text()")[0] infoId = info.xpath("../@id")[0] data = { "title": title, "id": infoId, "date": saveTime, "content": content, "source": "bishijie" } print(data) if (int(infoId) > int(saveId) - 20): print("插入了一條新數(shù)據(jù)!") information.insert_one(data) else: print("無新數(shù)據(jù)產(chǎn)生!") except IndexError: pass if __name__ == "__main__": fs = open("C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest", "r+") # 寫你自己的文件地址 line = fs.read() fileDate = line[0:6] if (fileDate != currentTime): print("時(shí)間不一致,宕機(jī)使用當(dāng)前系統(tǒng)時(shí)間進(jìn)行爬取!") urls = ["http://m.bishijie.com/kuaixun?fm=" + currentTime] for url in urls: get_url(url) time.sleep(2) else: print("時(shí)間一致, 正常運(yùn)行!") urls = ["http://m.bishijie.com/kuaixun?fm=" + currentTime] for url in urls: get_url(url) time.sleep(2)主要要求掌握內(nèi)容: xpath語法,python操作文件,python的基礎(chǔ)語法 本文內(nèi)容比較基礎(chǔ),寫的不好,多多指教!大家一起進(jìn)步?。。?/b> 我的其他關(guān)于python的文章
Python爬蟲入門
Python爬蟲之使用MongoDB存儲(chǔ)數(shù)據(jù)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/41967.html
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:,源代碼爬取京東商品列表,以手機(jī)商品列表為例示例網(wǎng)址版本京東手機(jī)列表源代碼下載位置請(qǐng)看文章末尾的源。,抓取結(jié)果運(yùn)行上面的代碼,就會(huì)爬取京東手機(jī)品類頁面的所有手機(jī)型號(hào)價(jià)格等信息,并保存到本地文件京東手機(jī)列表中。 showImg(https://segmentfault.com/img/bVxXHW); 1,引言 在上一篇《python爬蟲實(shí)戰(zhàn):爬取Drupal論壇帖子列表》,爬取了一個(gè)用...
摘要:且本小白也親身經(jīng)歷了整個(gè)從小白到爬蟲初入門的過程,因此就斗膽在上開一個(gè)欄目,以我的圖片爬蟲全實(shí)現(xiàn)過程為例,以期用更簡(jiǎn)單清晰詳盡的方式來幫助更多小白應(yīng)對(duì)更大多數(shù)的爬蟲實(shí)際問題。 前言: 一個(gè)月前,博主在學(xué)過python(一年前)、會(huì)一點(diǎn)網(wǎng)絡(luò)(能按F12)的情況下,憑著熱血和興趣,開始了pyth...
摘要:通過本文的學(xué)習(xí),可以快速掌握網(wǎng)絡(luò)爬蟲基礎(chǔ),結(jié)合實(shí)戰(zhàn)練習(xí),寫出一些簡(jiǎn)單的爬蟲項(xiàng)目。從技術(shù)手段來說,網(wǎng)絡(luò)爬蟲有多種實(shí)現(xiàn)方案,如。二網(wǎng)絡(luò)爬蟲技術(shù)基礎(chǔ)在本次課中,將使用技術(shù)手段進(jìn)行項(xiàng)目的編寫。 摘要:本文詳細(xì)講解了python網(wǎng)絡(luò)爬蟲,并介紹抓包分析等技術(shù),實(shí)戰(zhàn)訓(xùn)練三個(gè)網(wǎng)絡(luò)爬蟲案例,并簡(jiǎn)單補(bǔ)充了常見的反爬策略與反爬攻克手段。通過本文的學(xué)習(xí),可以快速掌握網(wǎng)絡(luò)爬蟲基礎(chǔ),結(jié)合實(shí)戰(zhàn)練習(xí),寫出一些簡(jiǎn)單的...
摘要:爬蟲實(shí)戰(zhàn)二爬取西刺代理的代理對(duì)于剛?cè)腴T的同學(xué)來說,本次實(shí)戰(zhàn)稍微有點(diǎn)難度,但是簡(jiǎn)單的爬取圖片文本之類的又沒營(yíng)養(yǎng),所以這次我選擇了爬取西刺代理的地址,爬取的代理也能在以后的學(xué)習(xí)中用到本次實(shí)戰(zhàn)用的主要知識(shí)很多,其中包括自動(dòng)保存利用抓包工具獲取和匹 爬蟲實(shí)戰(zhàn)(二):爬取西刺代理的代理ip 對(duì)于剛?cè)腴T的同學(xué)來說,本次實(shí)戰(zhàn)稍微有點(diǎn)難度,但是簡(jiǎn)單的爬取圖片、文本之類的又沒營(yíng)養(yǎng),所以這次我選擇了爬...
閱讀 3799·2023-04-26 02:00
閱讀 3167·2021-11-22 13:54
閱讀 1778·2021-08-03 14:03
閱讀 768·2019-08-30 15:52
閱讀 3186·2019-08-29 12:30
閱讀 2476·2019-08-26 13:35
閱讀 3437·2019-08-26 13:25
閱讀 3054·2019-08-26 11:39