摘要:上次用寫的爬蟲(chóng)速度很感人,今天打算用框架來(lái)實(shí)現(xiàn),看看速度如何。
上次用requests寫的爬蟲(chóng)速度很感人,今天打算用scrapy框架來(lái)實(shí)現(xiàn),看看速度如何。
爬蟲(chóng)步驟第一步,安裝scrapy,執(zhí)行一下命令
pip install Scrapy
第二步,創(chuàng)建項(xiàng)目,執(zhí)行一下命令
scrapy startproject novel
第三步,編寫spider文件,文件存放位置novel/spiders/toscrape-xpath.py,內(nèi)容如下
# -*- coding: utf-8 -*- import scrapy class ToScrapeSpiderXPath(scrapy.Spider): # 爬蟲(chóng)的名字 name = "novel" # 爬蟲(chóng)啟始url start_urls = [ "https://www.xbiquge6.com/0_638/1124120.html", ] def parse(self, response): # 定義存儲(chǔ)的數(shù)據(jù)格式 yield { "text": response.xpath("http://div[@class="bookname"]/h1[1]/text()").extract_first(), "content": response.xpath("http://div[@id="content"]/text()").extract(), # "author": quote.xpath(".//small[@class="author"]/text()").extract_first(), # "tags": quote.xpath(".//div[@class="tags"]/a[@class="tag"]/text()").extract() } # 下一章的鏈接 next_page_url = response.xpath("http://div[@class="bottem1"]/a[3]/@href").extract_first() # 如果下一章的鏈接不等于首頁(yè) 則爬取url內(nèi)容 ps:最后一章的下一章鏈接為首頁(yè) if next_page_url != "https://www.xbiquge6.com/0_638/": yield scrapy.Request(response.urljoin(next_page_url))總結(jié)
框架用時(shí):23分,比requests快三倍!awesmome!xpath也蠻好用的,繼續(xù)學(xué)習(xí),歡迎交流。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/42722.html
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:所以如果對(duì)爬蟲(chóng)有一定基礎(chǔ),上手框架是一種好的選擇。缺少包,使用安裝即可缺少包,使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬取相關(guān)庫(kù)的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬蟲(chóng)框架的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---9、APP爬取相關(guān)庫(kù)的安裝:Appium的安裝下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---11、爬蟲(chóng)框架的安裝:ScrapySplash、ScrapyRedis 我們直接...
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲(chóng)。所以我一個(gè)python小白就被拉去做了爬蟲(chóng)。花了兩周時(shí)間,拼拼湊湊總算趕出來(lái)了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過(guò)...
摘要:解析的方法,每個(gè)初始完成下載后將被調(diào)用,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對(duì)象來(lái)作為唯一參數(shù),主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁(yè)數(shù)據(jù),提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁(yè)的請(qǐng)求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛。 框架的力量,用戶只需要定制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片,非常...
閱讀 780·2021-10-27 14:15
閱讀 1258·2021-10-15 09:42
閱讀 2798·2019-08-30 15:53
閱讀 1333·2019-08-23 17:02
閱讀 3019·2019-08-23 16:23
閱讀 3246·2019-08-23 15:57
閱讀 3534·2019-08-23 14:39
閱讀 572·2019-08-23 14:35