成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專(zhuān)欄INFORMATION COLUMN

如何使用robots禁止各大搜索引擎爬蟲(chóng)爬取網(wǎng)站

RyanHoo / 3163人閱讀

摘要:由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲(chóng)抓取,干擾了線上正常環(huán)境的使用,剛好看到每次搜索淘寶時(shí),都會(huì)有一句由于文件存在限制指令無(wú)法提供內(nèi)容描述,于是便去學(xué)習(xí)了一波原來(lái)一般來(lái)說(shuō)搜索引擎爬取網(wǎng)站時(shí)都會(huì),先讀取下文件,并依照里面所設(shè)定的規(guī)則去爬取

ps:由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲(chóng)抓取,干擾了線上正常環(huán)境的使用,剛好看到每次搜索淘寶時(shí),都會(huì)有一句由于robots.txt文件存在限制指令無(wú)法提供內(nèi)容描述,于是便去學(xué)習(xí)了一波

   1.原來(lái)一般來(lái)說(shuō)搜索引擎爬取網(wǎng)站時(shí)都會(huì),先讀取下robots.txt文件,并依照里面所設(shè)定的規(guī)則去爬取網(wǎng)站(當(dāng)然是指沒(méi)用登錄限制的頁(yè)面)

    2.下面我們就來(lái)說(shuō)一說(shuō)如何設(shè)置robots.txt文件

    1).robots.txt文件必須是放在文件根目錄上:
      例如:

        ├─admin

        │ ?└─templates

        │ ?????????header.tpl.php

        │ ?????????task_add.tpl.php

        │? ?└─robots.txt

     2 ) .首先常用的命令為

        User-agent : 可以具體制定User-agent適用,即搜索引擎的名字,如果為 * 的話則為通配

        Disallow : 可以設(shè)定檔案或文件夾,不允許被爬蟲(chóng)爬取,且為 / 時(shí)禁止爬取整站 ,也可以指定文件路徑,不可爬取

        Crawl-delay: 延時(shí)爬取,防止爬蟲(chóng)短時(shí)間內(nèi)爬取網(wǎng)站過(guò)快導(dǎo)致網(wǎng)站崩潰,則可以設(shè)置該延時(shí)

        Allow : 允許爬取指定頁(yè)面, 為 / 時(shí)爬取整站

    3) 搜索引擎別稱(chēng)

        Googlebot 谷歌

?        Baiduspider 百度

        等等

  類(lèi)似我們測(cè)試環(huán)境就設(shè)置了

?

    User-agent : / 所有搜索引擎

    Disallow : / 禁止整站

?

?

        

?

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/1875.html

相關(guān)文章

  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---23、使用Urllib:分析Robots協(xié)議

    摘要:比如我們可以設(shè)置這就代表我們?cè)O(shè)置的規(guī)則對(duì)百度爬蟲(chóng)是有效的。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)使用解析鏈接下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)基本使用 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---22、使用Urllib:解析鏈接下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---24、requests:基本使用 利用 Urllib 的 robotparser 模塊我們可以實(shí)現(xiàn)網(wǎng)站 Robots 協(xié)議的分析,本節(jié)我們來(lái)簡(jiǎn)...

    kaka 評(píng)論0 收藏0
  • 11、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy使用

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤(pán),搜各種資料表達(dá)式表示向下查找層指定標(biāo)簽,如表示查找所有標(biāo)簽表示向下查找一層指定的標(biāo)簽表示查找指定屬性的值可以連綴如屬性名稱(chēng)屬性值表示查找指定屬性等于指定值的標(biāo)簽可以連綴,如查找名稱(chēng)等于指定名稱(chēng)的標(biāo)簽獲取標(biāo)簽文本 【百度云搜索,搜各種資料:http://www.lqkweb.com】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】 xpath...

    trilever 評(píng)論0 收藏0
  • Python爬蟲(chóng)筆記1-爬蟲(chóng)背景了解

    摘要:學(xué)習(xí)爬蟲(chóng)的背景了解。但是搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容,如標(biāo)注為的鏈接,或者是協(xié)議。不同領(lǐng)域不同背景的用戶往往具有不同的檢索目的和需求,搜索引擎無(wú)法提供針對(duì)具體某個(gè)用戶的搜索結(jié)果。 學(xué)習(xí)python爬蟲(chóng)的背景了解。 大數(shù)據(jù)時(shí)代數(shù)據(jù)獲取方式 如今,人類(lèi)社會(huì)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為必不可少的部分,可見(jiàn)數(shù)據(jù)的獲取非常重要,而數(shù)據(jù)的獲取的方式...

    oujie 評(píng)論0 收藏0
  • scrapy提升篇之配置

    摘要:提升篇之配置增加并發(fā)并發(fā)是指同時(shí)處理的的數(shù)量。其有全局限制和局部每個(gè)網(wǎng)站的限制。使用級(jí)別來(lái)報(bào)告這些信息。在進(jìn)行通用爬取時(shí)并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲(chóng)在內(nèi)存中記錄的蹤跡,提高性能。 scrapy提升篇之配置 增加并發(fā) 并發(fā)是指同時(shí)處理的request的數(shù)量。其有全局限制和局部(每個(gè)網(wǎng)站)的限制。Scrapy默認(rèn)的全局并發(fā)限制對(duì)同時(shí)爬取大量網(wǎng)站的情況并不適用,因此您需要...

    劉永祥 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<