成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

Python3 爬蟲(chóng) scrapy框架 爬取小說(shuō)網(wǎng)站數(shù)據(jù)

王陸寬 / 1190人閱讀

摘要:上次用寫的爬蟲(chóng)速度很感人,今天打算用框架來(lái)實(shí)現(xiàn),看看速度如何。

上次用requests寫的爬蟲(chóng)速度很感人,今天打算用scrapy框架來(lái)實(shí)現(xiàn),看看速度如何。

爬蟲(chóng)步驟

第一步,安裝scrapy,執(zhí)行一下命令

pip install Scrapy

第二步,創(chuàng)建項(xiàng)目,執(zhí)行一下命令

scrapy startproject novel

第三步,編寫spider文件,文件存放位置novel/spiders/toscrape-xpath.py,內(nèi)容如下

# -*- coding: utf-8 -*-
import scrapy


class ToScrapeSpiderXPath(scrapy.Spider):
    # 爬蟲(chóng)的名字
    name = "novel"
    # 爬蟲(chóng)啟始url
    start_urls = [
        "https://www.xbiquge6.com/0_638/1124120.html",
    ]

    def parse(self, response):
        # 定義存儲(chǔ)的數(shù)據(jù)格式
        yield {
            "text": response.xpath("http://div[@class="bookname"]/h1[1]/text()").extract_first(),
            "content": response.xpath("http://div[@id="content"]/text()").extract(),
            # "author": quote.xpath(".//small[@class="author"]/text()").extract_first(),
            # "tags": quote.xpath(".//div[@class="tags"]/a[@class="tag"]/text()").extract()
        }
        # 下一章的鏈接
        next_page_url = response.xpath("http://div[@class="bottem1"]/a[3]/@href").extract_first()
        # 如果下一章的鏈接不等于首頁(yè) 則爬取url內(nèi)容  ps:最后一章的下一章鏈接為首頁(yè)
        if next_page_url != "https://www.xbiquge6.com/0_638/":
            yield scrapy.Request(response.urljoin(next_page_url))
總結(jié)

框架用時(shí):23分,比requests快三倍!awesmome!xpath也蠻好用的,繼續(xù)學(xué)習(xí),歡迎交流。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/42722.html

相關(guān)文章

  • 首次公開(kāi),整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • 23個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博等

    摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---10、爬蟲(chóng)框架的安裝:PySpider、Scrapy

    摘要:所以如果對(duì)爬蟲(chóng)有一定基礎(chǔ),上手框架是一種好的選擇。缺少包,使用安裝即可缺少包,使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬取相關(guān)庫(kù)的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬蟲(chóng)框架的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---9、APP爬取相關(guān)庫(kù)的安裝:Appium的安裝下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---11、爬蟲(chóng)框架的安裝:ScrapySplash、ScrapyRedis 我們直接...

    張憲坤 評(píng)論0 收藏0
  • scrapy入門

    摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲(chóng)。所以我一個(gè)python小白就被拉去做了爬蟲(chóng)。花了兩周時(shí)間,拼拼湊湊總算趕出來(lái)了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過(guò)...

    CrazyCodes 評(píng)論0 收藏0
  • Scrapy 框架入門簡(jiǎn)介

    摘要:解析的方法,每個(gè)初始完成下載后將被調(diào)用,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對(duì)象來(lái)作為唯一參數(shù),主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁(yè)數(shù)據(jù),提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁(yè)的請(qǐng)求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛。 框架的力量,用戶只需要定制開(kāi)發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲(chóng),用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片,非常...

    Coding01 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<