成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

我的第一個(gè) scrapy 爬蟲

xiaoxiaozi / 2363人閱讀

摘要:安裝這個(gè)就不用我說了吧,網(wǎng)上教程一大堆安裝包創(chuàng)建項(xiàng)目進(jìn)入項(xiàng)目目錄下,創(chuàng)建爬蟲文件進(jìn)入項(xiàng)目目錄,執(zhí)行命令編寫文件編寫文件職位名稱詳情連接職位類別執(zhí)行輸出到文件執(zhí)行成功會(huì)顯示如下內(nèi)容版本說明源碼地址參考關(guān)注微信公眾號(hào),

安裝 python

這個(gè)就不用我說了吧,網(wǎng)上教程一大堆

安裝 scrapy 包

pip install scrapy

創(chuàng)建 scrapy 項(xiàng)目

scrapy startproject aliSpider

進(jìn)入項(xiàng)目目錄下,創(chuàng)建爬蟲文件

cmd 進(jìn)入項(xiàng)目目錄,執(zhí)行命令:

scrapy genspider -t crawl alispi job.alibaba.com

編寫 items.py 文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class AlispiderItem(scrapy.Item):
    # define the fields for your item here like:
    detail = scrapy.Field()
    workPosition = scrapy.Field()
    jobclass = scrapy.Field()
    

編寫 alispi.py 文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from aliSpider.items import AlispiderItem


class AlispiSpider(CrawlSpider):
    name = "alispi"
    allowed_domains = ["job.alibaba.com"]
    start_urls = ["https://job.alibaba.com/zhaopin/positionList.html#page/0"]
    pagelink = LinkExtractor(allow=("d+"))
    rules = (
        Rule(pagelink, callback="parse_item", follow=True),
    )

    def parse_item(self, response):
        # for each in response.xpath("http://tr[@style="display:none"]"):
        for each in response.xpath("http://tr"):
            item = AlispiderItem()
            # 職位名稱
            item["detail"] = each.xpath("./td[1]/span/a/@href").extract()
            # # # 詳情連接
            item["workPosition"] = each.xpath("./td[3]/span/text()").extract()
            # # # 職位類別
            item["jobclass"] = each.xpath("./td[2]/span/text()").extract()
            yield item

執(zhí)行

scrapy crawl alispi

輸出到文件 items.json

scrapy crawl alispi -o items.json

執(zhí)行成功會(huì)顯示如下內(nèi)容

版本說明

python 3.5.5

源碼地址:https://github.com/zhongsb/al...

參考:https://scrapy-chs.readthedoc...

關(guān)注微信公眾號(hào) [prepared],與博主深入探討。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/42542.html

相關(guān)文章

  • scrapy入門教程3:scrapy的shell命令

    摘要:用例運(yùn)行爬蟲命令基本語法是否需要項(xiàng)目存在當(dāng)然是不需要咯貌似這個(gè)命令是不依托一個(gè)項(xiàng)目而直接運(yùn)行一個(gè)爬蟲的命令。用例我終于寫完了,喜歡的就收藏推薦一下吧,這樣我就會(huì)更有動(dòng)力寫新的教程了,哇哈哈 0. 基本環(huán)境說明 本文截圖及運(yùn)行環(huán)境均在Win8上實(shí)現(xiàn)(是的,我放假回家了,家里的機(jī)器是win8的沒有辦法),但基本步驟與win 7環(huán)境基本相同。(應(yīng)該把~)ps:我后來換了臺(tái)win7的電腦,所...

    zhongmeizhi 評(píng)論0 收藏0
  • 爬蟲學(xué)習(xí)之基于 Scrapy爬蟲自動(dòng)登錄

    摘要:概述在前面兩篇爬蟲學(xué)習(xí)之基于的網(wǎng)絡(luò)爬蟲和爬蟲學(xué)習(xí)之簡(jiǎn)單的網(wǎng)絡(luò)爬蟲文章中我們通過兩個(gè)實(shí)際的案例,采用不同的方式進(jìn)行了內(nèi)容提取。 概述 在前面兩篇(爬蟲學(xué)習(xí)之基于Scrapy的網(wǎng)絡(luò)爬蟲和爬蟲學(xué)習(xí)之簡(jiǎn)單的網(wǎng)絡(luò)爬蟲)文章中我們通過兩個(gè)實(shí)際的案例,采用不同的方式進(jìn)行了內(nèi)容提取。我們對(duì)網(wǎng)絡(luò)爬蟲有了一個(gè)比較初級(jí)的認(rèn)識(shí),只要發(fā)起請(qǐng)求獲取響應(yīng)的網(wǎng)頁內(nèi)容,然后對(duì)內(nèi)容進(jìn)行格式化存儲(chǔ)。很多時(shí)候我們抓取到的內(nèi)容...

    Panda 評(píng)論0 收藏0
  • scrapy入門

    摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲。所以我一個(gè)python小白就被拉去做了爬蟲?;藘芍軙r(shí)間,拼拼湊湊總算趕出來了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...

    CrazyCodes 評(píng)論0 收藏0
  • Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

    摘要:前言新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡(jiǎn)單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲,經(jīng)過一段時(shí)間的實(shí)踐,寫了幾個(gè)簡(jiǎn)單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...

    WalkerXu 評(píng)論0 收藏0
  • scrapy 實(shí)戰(zhàn)練習(xí)

    摘要:爬取百思不得姐首先一步一步來,我們先從爬最簡(jiǎn)單的文本開始。將百思不得姐段子保存到中別忘了將管道加到配置文件中。雖然我只是簡(jiǎn)單的爬了百思不得姐,不過這些方法可以應(yīng)用到其他方面,爬取更多更有用的數(shù)據(jù)。 前一篇文章介紹了很多關(guān)于scrapy的進(jìn)階知識(shí),不過說歸說,只有在實(shí)際應(yīng)用中才能真正用到這些知識(shí)。所以這篇文章就來嘗試?yán)胹crapy爬取各種網(wǎng)站的數(shù)據(jù)。 爬取百思不得姐 首先一步一步來,我...

    betacat 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<