scrapy簡單學(xué)習(xí)

Jeffrrey 發(fā)布于2019-07-24 18:08 / 1669人閱讀

摘要：學(xué)習(xí)網(wǎng)站入門教程創(chuàng)建項目打開所在位置，輸入命令定義編輯對您想要采集的數(shù)據(jù)類型進行定義。例如編寫爬蟲在的文件下新建一個文件，代碼如下啟動爬蟲在的命令行轉(zhuǎn)至的根目錄下，輸入命令保存數(shù)據(jù)或者

學(xué)習(xí)網(wǎng)站：scrapy入門教程

1.創(chuàng)建項目：cmd打開scrapy所在位置，輸入命令

scrapy startproject tutorial

2.定義item：編輯item.py,對您想要采集的數(shù)據(jù)類型進行定義。例如：

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.編寫爬蟲：在spiders的文件下新建一個domz_spider.py文件，代碼如下：

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath("http://ul/li"):
            item = DmozItem()
            item["title"] = sel.xpath("a/text()").extract()
            item["link"] = sel.xpath("a/@href").extract()
            item["desc"] = sel.xpath("text()").extract()
            yield item

4.啟動爬蟲：在cmd的命令行轉(zhuǎn)至spiders的根目錄下，輸入命令

scrapy crawl dmoz

5.保存數(shù)據(jù)：

scrapy crawl dmoz -o items.json

或者

scrapy crawl dmoz -o items.csv

GPU云服務(wù)器云服務(wù)器深度學(xué)習(xí)簡單學(xué)習(xí) 深度學(xué)習(xí)簡單簡單深度學(xué)習(xí) 簡單機器學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/37612.html

相關(guān)文章

Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）

摘要：下載器下載器負責(zé)獲取頁面數(shù)據(jù)并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。一旦頁面下載完畢，下載器生成一個該頁面的，并將其通過下載中間件返回方向發(fā)送給引擎。作者：xiaoyu微信公眾號：Python數(shù)據(jù)科學(xué)知乎：Python數(shù)據(jù)分析師在爬蟲的路上，學(xué)習(xí)scrapy是一個必不可少的環(huán)節(jié)。也許有好多朋友此時此刻也正在接觸并學(xué)習(xí)sc...

pkhope 2019-07-31 11:05 評論0 收藏0
scrapy簡單學(xué)習(xí)4—西刺Ip的爬取

摘要：學(xué)習(xí)網(wǎng)站麥子第九集的定義的編寫作用生成初始的定義空集設(shè)置變量頁碼到生成的放到中返回提取每一行的位置提取標(biāo)簽下的屬性變量加入標(biāo)簽定義空集的從以后開始加載取文字取文字取到的屬性，再用正則匹配到數(shù)字把添加到項目返回項目保存成結(jié)果輸出學(xué)習(xí)網(wǎng)站：麥子scrapy第九集 1.item.py的定義 import scrapy class XiciItem(scrapy.Item): I...

huaixiaoz 2019-07-31 10:49 評論0 收藏0
scrapy簡單學(xué)習(xí)5—圖片下載，爬取妹子圖

摘要：學(xué)習(xí)網(wǎng)站爬蟲，整站爬取妹子圖定義爬取的內(nèi)容的編寫提供了一種便捷的方式填充抓取到的是頁面源代碼，載入每個連接，用屬性請求連接，返回請求獲取頁碼集合打印頁碼如果頁碼集合圖片連接讀取頁碼集合的倒數(shù)第二個頁碼圖片連接替換成空返回請求用載學(xué)習(xí)網(wǎng)站：爬蟲，整站爬取妹子圖 1.item.py(定義爬取的內(nèi)容) import scrapy class MeizituItem(scrapy.Ite...

JerryZou 2019-07-31 10:49 評論0 收藏0
scrapy簡單學(xué)習(xí)3—簡單爬取中文網(wǎng)站（仿寫向）

摘要：仿寫原創(chuàng)單頁面爬取爬取網(wǎng)站聯(lián)合早報網(wǎng)左側(cè)的標(biāo)題，連接，內(nèi)容定義爬取內(nèi)容文件編寫保存文件命令備注打開出現(xiàn)亂碼，用記事本轉(zhuǎn)換成編碼，打開中文可正常。仿寫原創(chuàng)——單頁面爬取爬取網(wǎng)站：聯(lián)合早報網(wǎng)左側(cè)的標(biāo)題，連接，內(nèi)容1.item.py定義爬取內(nèi)容 import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() ...

王陸寬 2019-07-31 10:49 評論0 收藏0
Scrapy學(xué)習(xí)（二）入門

摘要：快速入門接上篇學(xué)習(xí)一安裝，安裝后，我們利用一個簡單的例子來熟悉如何使用創(chuàng)建一個爬蟲項目。創(chuàng)建一個項目在已配置好的環(huán)境下輸入系統(tǒng)將在當(dāng)前目錄生成一個的項目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見入門項目快速入門接上篇Scrapy學(xué)習(xí)（一）安裝，安裝后，我們利用一個簡單的例子來熟悉如何使用Scrapy創(chuàng)建一個爬蟲項目。創(chuàng)建一個Scrapy項目在已配置好的環(huán)境...

Astrian 2019-07-25 11:28 評論0 收藏0