Python3 爬蟲(chóng) scrapy框架爬取小說(shuō)網(wǎng)站數(shù)據(jù)

王陸寬發(fā)布于2019-07-30 18:36 / 1190人閱讀

摘要：上次用寫的爬蟲(chóng)速度很感人，今天打算用框架來(lái)實(shí)現(xiàn)，看看速度如何。

上次用requests寫的爬蟲(chóng)速度很感人，今天打算用scrapy框架來(lái)實(shí)現(xiàn)，看看速度如何。

爬蟲(chóng)步驟

第一步，安裝scrapy，執(zhí)行一下命令

pip install Scrapy

第二步，創(chuàng)建項(xiàng)目，執(zhí)行一下命令

scrapy startproject novel

第三步，編寫spider文件，文件存放位置novel/spiders/toscrape-xpath.py，內(nèi)容如下

# -*- coding: utf-8 -*-
import scrapy


class ToScrapeSpiderXPath(scrapy.Spider):
    # 爬蟲(chóng)的名字
    name = "novel"
    # 爬蟲(chóng)啟始url
    start_urls = [
        "https://www.xbiquge6.com/0_638/1124120.html",
    ]

    def parse(self, response):
        # 定義存儲(chǔ)的數(shù)據(jù)格式
        yield {
            "text": response.xpath("http://div[@class="bookname"]/h1[1]/text()").extract_first(),
            "content": response.xpath("http://div[@id="content"]/text()").extract(),
            # "author": quote.xpath(".//small[@class="author"]/text()").extract_first(),
            # "tags": quote.xpath(".//div[@class="tags"]/a[@class="tag"]/text()").extract()
        }
        # 下一章的鏈接
        next_page_url = response.xpath("http://div[@class="bottem1"]/a[3]/@href").extract_first()
        # 如果下一章的鏈接不等于首頁(yè) 則爬取url內(nèi)容  ps：最后一章的下一章鏈接為首頁(yè)
        if next_page_url != "https://www.xbiquge6.com/0_638/":
            yield scrapy.Request(response.urljoin(next_page_url))

總結(jié)

框架用時(shí)：23分，比requests快三倍！awesmome！xpath也蠻好用的，繼續(xù)學(xué)習(xí)，歡迎交流。

云服務(wù)器 GPU云服務(wù)器爬蟲(chóng)框架scrapy scrapy框架編寫爬蟲(chóng) python爬蟲(chóng)框架scrapy scrapy爬取實(shí)例

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/42722.html

相關(guān)文章

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時(shí)間永遠(yuǎn)都過(guò)得那么快，一晃從年注冊(cè)，到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂，橡皮擦給設(shè)置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評(píng)論0 收藏0
23個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

摘要：今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄，可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼，包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

jlanglang 2019-07-31 10:09 評(píng)論0 收藏0
Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---10、爬蟲(chóng)框架的安裝：PySpider、Scrapy

摘要：所以如果對(duì)爬蟲(chóng)有一定基礎(chǔ)，上手框架是一種好的選擇。缺少包，使用安裝即可缺少包，使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬取相關(guān)庫(kù)的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬蟲(chóng)框架的安裝上一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---9、APP爬取相關(guān)庫(kù)的安裝：Appium的安裝下一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---11、爬蟲(chóng)框架的安裝：ScrapySplash、ScrapyRedis 我們直接...

張憲坤 2019-07-31 10:34 評(píng)論0 收藏0
scrapy入門

摘要：快速入門首先，初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門，我們肯定是先關(guān)心我們需要的。因?yàn)楣卷?xiàng)目需求，需要做一個(gè)爬蟲(chóng)。所以我一個(gè)python小白就被拉去做了爬蟲(chóng)。花了兩周時(shí)間，拼拼湊湊總算趕出來(lái)了。所以寫個(gè)blog做個(gè)記錄。快速入門首先，初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過(guò)...

CrazyCodes 2019-07-30 17:33 評(píng)論0 收藏0
Scrapy 框架入門簡(jiǎn)介

摘要：解析的方法，每個(gè)初始完成下載后將被調(diào)用，調(diào)用的時(shí)候傳入從每一個(gè)傳回的對(duì)象來(lái)作為唯一參數(shù)，主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁(yè)數(shù)據(jù)，提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁(yè)的請(qǐng)求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架，用途非常廣泛。框架的力量，用戶只需要定制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲(chóng)，用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片，非常...

Coding01 2019-07-30 15:39 評(píng)論0 收藏0