成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

保存數(shù)據(jù)到MySql數(shù)據(jù)庫——我用scrapy寫爬蟲(二)

Kross / 2575人閱讀

摘要:坦克大戰(zhàn)上簡介上的坦克大戰(zhàn)相信大家都玩過有逃學(xué)玩坦克的可以自己默默的扣一個了我們現(xiàn)在長大了,學(xué)習游戲開發(fā)了。

寫在前面

上一篇(https://www.tech1024.cn/origi... )說了如何創(chuàng)建項目,并爬去網(wǎng)站內(nèi)容,下面我們說一下如何保存爬去到的數(shù)據(jù)

開始爬取

創(chuàng)建Spider,上一篇我們已經(jīng)創(chuàng)建了ImoocSpider,我們做一下修改,可以連續(xù)下一頁爬取。
scrapyDemo/spiders目錄下的ImoocSpider類:

# -*- coding: utf-8 -*-

import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem


# 慕課網(wǎng)爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定義了Scrapy如何定位(并初始化)spider,所以其必須是唯一的
    name = "imooc"

    # URL列表
    start_urls = ["http://www.imooc.com/course/list"]
    #  域名不在列表中的URL不會被爬取。
    allowed_domains = ["www.imooc.com"]

    def parse(self, response):
        learn_nodes = response.css("a.course-card")

        item = ImoocCourseItem()
        # 遍歷該頁上所有課程列表
        for learn_node in learn_nodes:
            course_url = learn_node.css("::attr(href)").extract_first()
            # 拼接課程詳情頁地址
            course_url = urlparse.urljoin(response.url, course_url)
            # 課程地址
            item["course_url"] = course_url
            # 課程圖片
            item["image"] = learn_node.css(
                "img.course-banner::attr(src)").extract_first()
            # 進入課程詳情頁面
            yield scrapy.Request(
                url=course_url, callback=self.parse_learn, meta=item)

        # 下一頁地址
        next_page_url = response.css(
            u"div.page a:contains("下一頁")::attr(href)").extract_first()
        if next_page_url:
            yield scrapy.Request(
                url=urlparse.urljoin(response.url, next_page_url),
                callback=self.parse)

    def parse_learn(self, response):
        item = response.meta
        # 課程標題
        item["title"] = response.xpath(
            "http://h2[@class="l"]/text()").extract_first()
        # 課程簡介
        item["brief"] = response.xpath(
            "http://div[@class="course-brief"]/p/text()").extract_first()
        yield item

這里用到了scrapyDemo目錄下ImoocCourseItem類,下面我就說一下。

Item數(shù)據(jù)容器

在scrapyDemo目錄下創(chuàng)建ImoocCourseItem.py,這個類就是我們用了保存數(shù)據(jù)的容器,我們定義了標題、圖片、簡介、地址。
scrapyDemo目錄下ImoocCourseItem類:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ImoocCourseItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    # cate = scrapy.Field()
    image = scrapy.Field()
    # desc = scrapy.Field()
    brief = scrapy.Field()
    # cate = scrapy.Field()
    course_url = scrapy.Field()
    pass
Pipeline管道

Pipeline是用來處理抓取到的數(shù)據(jù),我們在scrapyDemo目錄下創(chuàng)建ScrapydemoPipeline.py類

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don"t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapyDemo.db.dbhelper import DBHelper


class ScrapydemoPipeline(object):
    # 連接數(shù)據(jù)庫
    def __init__(self):
        self.db = DBHelper()
    
    def process_item(self, item, spider):
        # 插入數(shù)據(jù)庫
        self.db.insert(item)
        return item

別忘了在配置文件中開啟管道哦,scrapyDemo目錄下的settings.py文件中,找到下ITEM_PIPELINES,修改為

ITEM_PIPELINES = {
   "scrapyDemo.pipelines.ScrapydemoPipeline": 300,
}
數(shù)據(jù)庫操作

這里面我們用到了數(shù)據(jù)庫的操作DBHelper類,那么我們在scrapyDemo/db目錄下創(chuàng)建dbhelper.py 模塊,記得再創(chuàng)建一個__init__.py哦。

# -*- coding: utf-8 -*-

import pymysql
from twisted.enterprise import adbapi
from scrapy.utils.project import get_project_settings  #導(dǎo)入seetings配置
import time


class DBHelper():
    """這個類也是讀取settings中的配置,自行修改代碼進行操作"""

    def __init__(self):
        settings = get_project_settings()  #獲取settings配置,設(shè)置需要的信息

        dbparams = dict(
            host=settings["MYSQL_HOST"],  #讀取settings中的配置
            db=settings["MYSQL_DBNAME"],
            user=settings["MYSQL_USER"],
            passwd=settings["MYSQL_PASSWD"],
            charset="utf8",  #編碼要加上,否則可能出現(xiàn)中文亂碼問題
            cursorclass=pymysql.cursors.DictCursor,
            use_unicode=False,
        )
        #**表示將字典擴展為關(guān)鍵字參數(shù),相當于host=xxx,db=yyy....
        dbpool = adbapi.ConnectionPool("pymysql", **dbparams)

        self.dbpool = dbpool

    def connect(self):
        return self.dbpool

    #創(chuàng)建數(shù)據(jù)庫
    def insert(self, item):
        sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)"
        #調(diào)用插入的方法
        query = self.dbpool.runInteraction(self._conditional_insert, sql, item)
        #調(diào)用異常處理方法
        query.addErrback(self._handle_error)

        return item

    #寫入數(shù)據(jù)庫中
    def _conditional_insert(self, tx, sql, item):
        item["created_at"] = time.strftime("%Y-%m-%d %H:%M:%S",
                                           time.localtime(time.time()))
        params = (item["title"], item["image"], item["brief"],
                  item["course_url"], item["created_at"])
        tx.execute(sql, params)

    #錯誤處理方法

    def _handle_error(self, failue):
        print("--------------database operation exception!!-----------------")
        print(failue)

這里用到了pymysql和adbapi,adbapi是python的數(shù)據(jù)庫連接池,可以pip安裝:

pip install pymysql
pip install Twisted

這里面還用到了get_project_settings方法,意思是從配置文件settings.py里邊獲取數(shù)據(jù)庫配置信息,我們在scrapyDemo目錄下的settings.py文件最后加入數(shù)據(jù)庫信息

#Mysql數(shù)據(jù)庫的配置信息
MYSQL_HOST = "192.168.6.1"
MYSQL_DBNAME = "scrapy_demo_db"         #數(shù)據(jù)庫名字,請修改
MYSQL_USER = "root"             #數(shù)據(jù)庫賬號,請修改 
MYSQL_PASSWD = "abc-123"         #數(shù)據(jù)庫密碼,請修改

MYSQL_PORT = 3306               #數(shù)據(jù)庫端口,在dbhelper中使用

建表語句如下:

DROP TABLE IF EXISTS `tech_courses`;
CREATE TABLE `tech_courses` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) DEFAULT NULL,
  `image` varchar(255) DEFAULT NULL,
  `brief` varchar(255) DEFAULT NULL,
  `course_url` varchar(255) DEFAULT NULL,
  `created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;
大功告成

我們在命令行運行項目

F:	echleepythonscrapyDemo>scrapy crawl imooc
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo)
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {"BOT_NAME": "scrapyDemo", "NEWSPIDER_MODULE": "scrapyDemo.spiders", "ROBOTSTXT_OBEY": True, "SPIDER_MODULES": ["scrapyDemo.spiders"]}
2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions:
["scrapy.extensions.corestats.CoreStats",

……

2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list?page=26)
2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127>
{"course_url": "http://www.imooc.com/learn/127", "image": "http://img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg", "depth": 26, "download_timeout": 180.0, "download_slot": "www.imooc.com", "retry_times": 1, "download_latency": 0.24331021308898926, "title": "玩兒轉(zhuǎn)Swift", "brief": "簡介:我們期望用戶在看完這套教程后,對swift語言的了解能達到中上水平。這意味著在接觸Cocoa Touch將一點兒都不費勁,對一些高級概念,諸如閉包 、協(xié)議、泛型、內(nèi)存管理都能有所理解并且有所實踐。這套教程一定比市面上普遍看到的Swift中文教程深入,并且演示示例更豐富。"}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished)
2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{"downloader/exception_count": 24,
 "downloader/exception_type_count/twisted.internet.error.TimeoutError": 24,
 "downloader/request_bytes": 359595,
 "downloader/request_count": 836,
 "downloader/request_method_count/GET": 836,
 "downloader/response_bytes": 8680952,
 "downloader/response_count": 812,
 "downloader/response_status_count/200": 812,
 "finish_reason": "finished",
 "finish_time": datetime.datetime(2017, 10, 25, 16, 6, 48, 884826),
 "item_scraped_count": 779,
 "log_count/DEBUG": 1616,
 "log_count/INFO": 18,
 "log_count/WARNING": 1,
 "request_depth_max": 32,
 "response_received_count": 812,
 "retry/count": 24,
 "retry/reason_count/twisted.internet.error.TimeoutError": 24,
 "scheduler/dequeued": 835,
 "scheduler/dequeued/memory": 835,
 "scheduler/enqueued": 835,
 "scheduler/enqueued/memory": 835,
 "start_time": datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)

如果沒有報錯,我們的數(shù)據(jù)庫是不是有數(shù)據(jù)了呢

779    玩兒轉(zhuǎn)Swift    //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg    簡介:我們期望用戶在看完這套教程后,對swift語言的了解能達到中上水平。這意味著在接觸Cocoa Touch將一點兒都不費勁,對一些高級概念,諸如閉包、協(xié)議、泛型、內(nèi)存管理都能有所理解并且有所實踐。這套教程一定比市面上普遍看到的Swift中文教程深入,并且演示示例更豐富。    http://www.imooc.com/learn/127    2017-10-26 00:06:48
778    iOS9那些神坑    //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg    簡介:為啥我用iOS9開發(fā)的應(yīng)用無法進行網(wǎng)絡(luò)請求?為啥多出了一個Bitcode編譯選項?什么又是白名單呢?這些都是iOS9的一些新特性,在我們的這門課程中都會為大家一一介紹。
    http://www.imooc.com/learn/609    2017-10-26 00:06:08
777    Cocos2d-x坦克大戰(zhàn)--上    //img4.mukewang.com/570763d20001662806000338-240-135.jpg    簡介:FC上的坦克大戰(zhàn)相信大家都玩過~有逃學(xué)玩坦克的可以自己默默的扣一個1了~我們現(xiàn)在長大了,學(xué)習游戲開發(fā)了。有沒有想過將小時候玩過的游戲復(fù)刻出來了?不為了彰顯自己的技術(shù),只為了小時候因為玩游戲而逃學(xué)挨過的打。由資深游戲開發(fā)者徐波老師為大家復(fù)刻的FC坦克大戰(zhàn)吧
    http://www.imooc.com/learn/610    2017-10-26 00:06:08
776    快速入門ThinkPHP 5.0 --模型篇    //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg    簡介:一個標準的網(wǎng)站一定離不開數(shù)據(jù)庫的操作,在本套課程中我和你一起來揭開ThinkPHP5 數(shù)據(jù)操作的神秘面紗,和你一起愉快的使用 ThinkPHP5 操作數(shù)據(jù)庫,讓數(shù)據(jù)庫操作變的更愉悅。    http://www.imooc.com/learn/854    2017-10-26 00:06:08
775    MongoDB Day 2015 深圳    //img4.mukewang.com/56779555000160d106000338-240-135.jpg    簡介:本次年度大會由來自MongoDB內(nèi)部的專家以及各行業(yè)MongoDB大牛關(guān)于數(shù)據(jù)安全、wiredtiger內(nèi)部機制、OpsManager以及在其它行業(yè)方面的成功案例。大會吸引了200多位MongoDB愛好者,會場內(nèi)座無虛席!    http://www.imooc.com/learn/562    2017-10-26 00:06:08
774    web安全之SQL注入    //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg    簡介:SQL注入自從WEB和數(shù)據(jù)庫發(fā)展以來就一直存在,而且給WEB應(yīng)用帶來很大的安全問題,會造成用戶隱私數(shù)據(jù)的泄露,數(shù)據(jù)庫版本信息泄露和數(shù)據(jù)庫攻擊等,給業(yè)務(wù)帶來很大的損失和不好的社會影響。所以對于我們WEB開發(fā)人員來說,項目開發(fā)過程中一定要培養(yǎng)一定的安全意識,了解SQL注入的定義,產(chǎn)生的原理、具體的一些攻擊手法和相應(yīng)的預(yù)防措施,為了更好的增加開發(fā)項目的健壯性和安全性    http://www.imooc.com/learn/883    2017-10-26 00:06:07
773    那些年你遇到的錯誤與異常    //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg    簡介:本課程主要講解兩部分內(nèi)容,先從PHP中的錯誤模塊談起,講解了PHP中常見的錯誤類型,剖析了PHP中的錯誤處理。接著又講解了PHP5面向?qū)ο筮^程中新的錯誤處理方式--異常模塊,由淺入深,講解異常及異常的實戰(zhàn)應(yīng)用等。    http://www.imooc.com/learn/380    2017-10-26 00:06:07
772    基于Websocket的火拼俄羅斯(基礎(chǔ))    //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg    簡介:本課程主要帶領(lǐng)大家了解要實現(xiàn)火拼俄羅斯的基礎(chǔ)知識WebSocket,以及socket.io,為后續(xù)實現(xiàn)火拼俄羅斯打下基礎(chǔ)。    http://www.imooc.com/learn/861    2017-10-26 00:06:07
771    Java定時任務(wù)調(diào)度工具詳解之Quartz篇    //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg    簡介:本課程是系列課程Java定時任務(wù)調(diào)度工具詳解中的Quartz篇,本系列課程旨在通過詳細講述Java定時調(diào)度工具的基本概念、工具,和這些工具里面包含的各個組件之間的關(guān)系,以及如何使用這些工具來實現(xiàn)定時調(diào)度功能,讓學(xué)生能夠?qū)ava定時調(diào)度工具有一個清晰而準確的認識。然后結(jié)合一些經(jīng)典的使用場景通過手把手的命令行操作進行教學(xué),使同學(xué)們得心用手地使用這些定時調(diào)度工具來實現(xiàn)自己想要的功能。講師實戰(zhàn)課程已經(jīng)上線,詳情:http://coding.imooc.com/learn/list/144.html    http://www.imooc.com/learn/846    2017-10-26 00:06:07

原文 https://www.tech1024.cn/origi...

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/40980.html

相關(guān)文章

  • 快速上手——我用scrapy爬蟲(一)

    摘要:寫在前面用寫爬蟲的人很多,的爬蟲框架也很多,諸如和,筆者還是筆記傾向于,本文就用寫一個小爬蟲。本文適用于有一定基礎(chǔ)的,并且對爬蟲有一定了解的開發(fā)者。 寫在前面 用python寫爬蟲的人很多,python的爬蟲框架也很多,諸如pyspider 和 scrapy,筆者還是筆記傾向于scrapy,本文就用python寫一個小爬蟲demo。本文適用于有一定python基礎(chǔ)的,并且對爬蟲有一定了...

    curlyCheng 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • scrapy 實戰(zhàn)練習

    摘要:爬取百思不得姐首先一步一步來,我們先從爬最簡單的文本開始。將百思不得姐段子保存到中別忘了將管道加到配置文件中。雖然我只是簡單的爬了百思不得姐,不過這些方法可以應(yīng)用到其他方面,爬取更多更有用的數(shù)據(jù)。 前一篇文章介紹了很多關(guān)于scrapy的進階知識,不過說歸說,只有在實際應(yīng)用中才能真正用到這些知識。所以這篇文章就來嘗試利用scrapy爬取各種網(wǎng)站的數(shù)據(jù)。 爬取百思不得姐 首先一步一步來,我...

    betacat 評論0 收藏0
  • 從零開始爬蟲

    摘要:幾個朋友對爬蟲很感興趣,他們也都是開發(fā)人員,一個開發(fā)兩個開發(fā),都沒有過項目開發(fā)經(jīng)驗,正好其中一個最近要爬一個網(wǎng)店的產(chǎn)品信息,所以希望我能拿這網(wǎng)站當寫一個爬蟲來給他們參考學(xué)習。我們就在這個文件里開發(fā)爬蟲的相關(guān)邏輯。 幾個朋友對爬蟲很感興趣,他們也都是開發(fā)人員,一個PHP開發(fā)兩個JAVA開發(fā),都沒有過python項目開發(fā)經(jīng)驗,正好其中一個最近要爬一個網(wǎng)店的產(chǎn)品信息,所以希望我能拿這網(wǎng)站當d...

    wwq0327 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<