使用Scrapy框架爬取網(wǎng)頁并保存到Mysql

89542767 發(fā)布于2022-11-05 11:24 / 621人閱讀

　　小編寫這篇文章的主要目的，主要是用來給大家做出一個解答，解答關(guān)于Scrapy框架的事情，主要是使用Scrapy框架，爬取網(wǎng)頁，然后保存到一個專業(yè)數(shù)據(jù)庫中，這個數(shù)據(jù)庫就是Mysql，那么，其具體要怎么實現(xiàn)呢？下面就給大家詳細的解答。

　　大家好，這一期阿彬給大家分享Scrapy爬蟲框架與本地Mysql的使用。今天阿彬爬取的網(wǎng)頁是虎撲體育網(wǎng)。

　?。?）打開虎撲體育網(wǎng)，分析一下網(wǎng)頁的數(shù)據(jù)，使用xpath定位元素。

　?。?）在第一部分析網(wǎng)頁之后就開始創(chuàng)建一個scrapy爬蟲工程，在終端執(zhí)行以下命令：

　　“scrapy startproject huty（注：‘hpty’是爬蟲項目名稱）”,得到了下圖所示的工程包：

　　（3）進入到“hpty/hpty/spiders”目錄下創(chuàng)建一個爬蟲文件叫‘“sww”，在終端執(zhí)行以下命令：“scrapy genspider sww”（4）在前兩步做好之后，對整個爬蟲工程相關(guān)的爬蟲文件進行編輯。1、setting文件的編輯：

　　把君子協(xié)議原本是True改為False。

　　再把這行原本被注釋掉的代碼把它打開。

　　2、對item文件進行編輯，這個文件是用來定義數(shù)據(jù)類型，代碼如下：

　　#Define here the models for your scraped items
　　#
　　#See documentation in:
　　#https://docs.scrapy.org/en/latest/topics/items.html
　　import scrapy
　　class HptyItem(scrapy.Item):
　　#define the fields for your item here like:
　　#name=scrapy.Field()
　　球員=scrapy.Field()
　　球隊=scrapy.Field()
　　排名=scrapy.Field()
　　場均得分=scrapy.Field()
　　命中率=scrapy.Field()
　　三分命中率=scrapy.Field()
　　罰球命中率=scrapy.Field()

　　3、對最重要的爬蟲文件進行編輯（即“hpty”文件），代碼如下：

　　import scrapy
　　from..items import HptyItem
　　class SwwSpider(scrapy.Spider):
　　name='sww'
　　allowed_domains=['https://nba.hupu.com/stats/players']
　　start_urls=['https://nba.hupu.com/stats/players']
　　def parse(self,response):
　　whh=response.xpath('//tbody/tr[not(class)]')
　　for i in whh:
　　排名=i.xpath(
　　'./td[1]/text()').extract()#排名
　　球員=i.xpath(
　　'./td[2]/a/text()').extract()#球員
　　球隊=i.xpath(
　　'./td[3]/a/text()').extract()#球隊
　　場均得分=i.xpath(
　　'./td[4]/text()').extract()#得分
　　命中率=i.xpath(
　　'./td[6]/text()').extract()#命中率
　　三分命中率=i.xpath(
　　'./td[8]/text()').extract()#三分命中率
　　罰球命中率=i.xpath(
　　'./td[10]/text()').extract()#罰球命中率
　　data=HptyItem(球員=球員,球隊=球隊,排名=排名,場均得分=場均得分,命中率=命中率,三分命中率=三分命中率,罰球命中率=罰球命中率)
　　yield data

　　4、對pipelines文件進行編輯，代碼如下：

　　#Define your item pipelines here
　　#
　　#Don't forget to add your pipeline to the ITEM_PIPELINES setting
　　#See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html
　　#useful for handling different item types with a single interface
　　from cursor import cursor
　　from itemadapter import ItemAdapter
　　import pymysql
　　class HptyPipeline:
　　def process_item(self,item,spider):
　　db=pymysql.connect(host="Localhost",user="root",passwd="root",db="sww",charset="utf8")
　　cursor=db.cursor()
　　球員=item["球員"][0]
　　球隊=item["球隊"][0]
　　排名=item["排名"][0]
　　場均得分=item["場均得分"][0]
　　命中率=item["命中率"]
　　三分命中率=item["三分命中率"][0]
　　罰球命中率=item["罰球命中率"][0]
　　#三分命中率=item["三分命中率"][0].strip('%')
　　#罰球命中率=item["罰球命中率"][0].strip('%')
　　cursor.execute(
　　'INSERT INTO nba(球員,球隊,排名,場均得分,命中率,三分命中率,罰球命中率)VALUES(%s,%s,%s,%s,%s,%s,%s)',
　　(球員,球隊,排名,場均得分,命中率,三分命中率,罰球命中率)
　　)
　　#對事務(wù)操作進行提交
　　db.commit()
　　#關(guān)閉游標
　　cursor.close()
　　db.close()
　　return item

　?。?）在scrapy框架設(shè)計好了之后，先到mysql創(chuàng)建一個名為“sww”的數(shù)據(jù)庫，在該數(shù)據(jù)庫下創(chuàng)建名為“nba”的數(shù)據(jù)表，代碼如下：1、創(chuàng)建數(shù)據(jù)庫

　　create database sww;

　　2、創(chuàng)建數(shù)據(jù)表

　　create table nba(球員char(20),球隊char(10),排名char(10),場均得分char(25),命中率char(20),三分命中率char(20),罰球命中率char(20));

　　3、通過創(chuàng)建數(shù)據(jù)庫和數(shù)據(jù)表可以看到該表的結(jié)構(gòu)：

　?。?）在mysql創(chuàng)建數(shù)據(jù)表之后，再次回到終端，輸入如下命令：“scrapy crawl sww”，得到的結(jié)果

　　到此為止，這篇文章就為大家解答完畢了，希望可以給大家?guī)砀嗟膸椭?/p>

云服務(wù)器 GPU云服務(wù)器保存網(wǎng)頁到本地 scrapy爬取實例保存到MySQL數(shù)據(jù)庫并保存

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/128244.html

發(fā)表評論

登陸后可評論

0條評論

89542767

男|高級講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時間格式與結(jié)構(gòu)型時長詳細說明

閱讀 1068·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 1064·2023-01-14 11:04
python中的特性管理模式詳細說明

閱讀 906·2023-01-14 10:48
Python運用fastapi完成上傳圖片

閱讀 2382·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 1150·2023-01-14 10:24
Python根據(jù)ssh遠程桌面連接Mysql數(shù)據(jù)庫操作

閱讀 1028·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 657·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 735·2023-01-14 10:02

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Scrapy框架爬取網(wǎng)頁并保存到Mysql

相關(guān)文章

從零開始寫爬蟲

scrapy-redis分布式爬蟲框架詳解

爬蟲入門

爬蟲入門

發(fā)表評論

0條評論

89542767

男|高級講師

TA的文章

pythontime控制模塊時間格式與結(jié)構(gòu)型時長詳細說明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細說明

Python運用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠程桌面連接Mysql數(shù)據(jù)庫操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Scrapy框架爬取網(wǎng)頁并保存到Mysql

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！