Scrapy學習（二）入門

Astrian 發(fā)布于2019-07-25 11:28 / 472人閱讀

摘要：快速入門接上篇學習一安裝，安裝后，我們利用一個簡單的例子來熟悉如何使用創(chuàng)建一個爬蟲項目。創(chuàng)建一個項目在已配置好的環(huán)境下輸入系統(tǒng)將在當前目錄生成一個的項目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見入門項目

快速入門

接上篇Scrapy學習（一）安裝，安裝后，我們利用一個簡單的例子來熟悉如何使用Scrapy創(chuàng)建一個爬蟲項目。

創(chuàng)建一個Scrapy項目

在已配置好的環(huán)境下輸入

scrapy startproject dmoz

系統(tǒng)將在當前目錄生成一個myproject的項目文件。該文件的目錄結(jié)構(gòu)如下

dmoz/    # 項目根目錄
   scrapy.cfg    # 項目配置文件
   dmoz/    # 項目模塊
       __init__.py
        items.py    # 項目item文件，有點類似Django中的模型
        pipelines.py    # 項目pipelines文件，負責數(shù)據(jù)的操作和存儲
        settings.py    # 項目的設(shè)置文件.
        spiders/    # 項目spider目錄，編寫的爬蟲腳步都放此目錄下
            __init__.py

接下來我們以dmoz.org為爬取目標。開始變現(xiàn)簡單的爬蟲項目。

編寫items

在items.py中編寫我們所需的數(shù)據(jù)的模型

from scrapy.item import Item, Field

class Website(Item):
    name = Field()
    description = Field()
    url = Field()

這個模型用來填充我們爬取的數(shù)據(jù)

編寫Spider

在spiders文件下新建爬蟲文件。這部分才是業(yè)務(wù)的核心部分。
首先創(chuàng)建一個繼承scrapy.spiders.Spider的類
并且定義如下三個屬性

name 標識spider

start_urls 啟動爬蟲時進行爬取的url列表，默認為空

parse() 每個初始的url下載后的response都會傳到該方法內(nèi)，在這個方法里可以對數(shù)據(jù)進行處理。

from scrapy.spiders import Spider
from scrapy.selector import Selector
from dirbot.items import Website

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]

    def parse(self, response):
        sites = response.css("#site-list-content > div.site-item > div.title-and-desc")
        items = []

        for site in sites:
            item = Website()
            item["name"] = site.css(
                "a > div.site-title::text").extract_first().strip()
            item["url"] = site.xpath(
                "a/@href").extract_first().strip()
            item["description"] = site.css(
                "div.site-descr::text").extract_first().strip()
            items.append(item)
        return items

其中值得注意的是，在parse方法內(nèi)，我們可以用Selector選擇器來提取網(wǎng)站中我們所需的數(shù)據(jù)。提取的方式有幾種。

xpath() 傳入xpath表達式獲取節(jié)點值

css() 傳入css表達式獲取節(jié)點值

re() 傳入正則表達式獲取節(jié)點值 # 此方法本人未測試

運行并保存數(shù)據(jù)

接下來我們運行爬蟲，并將爬取的數(shù)據(jù)存儲到j(luò)son中

scrapy crawl dmoz -o items.json

其他

在運行爬蟲的過程中，我遇到了如下報錯：

KeyError: "Spider not found: dmoz

這個是因為我的spider類中設(shè)置的name的值和我scrapy crawl運行的spider不一致導致的。

具體代碼詳見：
scrapy入門項目

云服務(wù)器 GPU云服務(wù)器 scrapy爬蟲入門深度學習二編程學習入門學習學習機器學習入門

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/38422.html

發(fā)表評論

登陸后可評論

0條評論

Astrian

男|高級講師

我要關(guān)注我要私信

TA的文章

Python基礎(chǔ)之輸入、輸出與高階賦值

閱讀 2051·2021-11-23 09:51
軟件需求工程十個題測試

閱讀 932·2021-11-19 09:40
如何保護您不了解的數(shù)據(jù)資產(chǎn)免受網(wǎng)絡(luò)攻擊?

閱讀 888·2021-10-27 14:20
寶塔面板，升級默認python2.7為python3.X，并共存！

閱讀 5227·2021-10-09 09:52
曲鳥全棧UI自動化教學(二)：環(huán)境搭建與第一個Selenium腳本

閱讀 3367·2021-10-09 09:44
程序員的之路。瀏覽器新標簽頁

閱讀 1785·2021-10-08 10:05
Authy – 二次密碼保護驗證必備軟件工具（親測Authy下載和使用）

閱讀 5296·2021-09-09 11:47
[譯] CSS 載入機制的未來趨勢

閱讀 3552·2019-08-30 12:47

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy學習（二）入門

相關(guān)文章

零基礎(chǔ)如何學爬蟲技術(shù)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Scrapy學習（三）爬取豆瓣圖書信息

非計算機專業(yè)小白自學爬蟲全指南（附資源）

發(fā)表評論

0條評論

Astrian

男|高級講師

TA的文章

Python基礎(chǔ)之輸入、輸出與高階賦值

軟件需求工程十個題測試

如何保護您不了解的數(shù)據(jù)資產(chǎn)免受網(wǎng)絡(luò)攻擊?

寶塔面板，升級默認python2.7為python3.X，并共存！

曲鳥全棧UI自動化教學(二)：環(huán)境搭建與第一個Selenium腳本

程序員的之路。瀏覽器新標簽頁

Authy – 二次密碼保護驗證必備軟件工具（親測Authy下載和使用）

[譯] CSS 載入機制的未來趨勢

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy學習（二） 入門

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy學習（二）入門