如何使用robots禁止各大搜索引擎爬蟲(chóng)爬取網(wǎng)站

RyanHoo 發(fā)布于2019-04-23 13:26 / 3163人閱讀

摘要：由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲(chóng)抓取，干擾了線上正常環(huán)境的使用，剛好看到每次搜索淘寶時(shí)，都會(huì)有一句由于文件存在限制指令無(wú)法提供內(nèi)容描述，于是便去學(xué)習(xí)了一波原來(lái)一般來(lái)說(shuō)搜索引擎爬取網(wǎng)站時(shí)都會(huì)，先讀取下文件，并依照里面所設(shè)定的規(guī)則去爬取

ps：由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲(chóng)抓取，干擾了線上正常環(huán)境的使用，剛好看到每次搜索淘寶時(shí)，都會(huì)有一句由于robots.txt文件存在限制指令無(wú)法提供內(nèi)容描述，于是便去學(xué)習(xí)了一波

　　　1.原來(lái)一般來(lái)說(shuō)搜索引擎爬取網(wǎng)站時(shí)都會(huì)，先讀取下robots.txt文件，并依照里面所設(shè)定的規(guī)則去爬取網(wǎng)站（當(dāng)然是指沒(méi)用登錄限制的頁(yè)面）

　　　 2.下面我們就來(lái)說(shuō)一說(shuō)如何設(shè)置robots.txt文件

　　　　1）.robots.txt文件必須是放在文件根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ ?└─templates

　　　　　　　　│ ?????????header.tpl.php

　　　　　　　　│ ?????????task_add.tpl.php

　　　　　　　　│? ?└─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設(shè)定檔案或文件夾，不允許被爬蟲(chóng)爬取，且為 / 時(shí)禁止爬取整站，也可以指定文件路徑，不可爬取

　　　　　　　　Crawl-delay: 延時(shí)爬取，防止爬蟲(chóng)短時(shí)間內(nèi)爬取網(wǎng)站過(guò)快導(dǎo)致網(wǎng)站崩潰，則可以設(shè)置該延時(shí)

　　　　　　　　Allow : 允許爬取指定頁(yè)面，為 / 時(shí)爬取整站

　　　　3）搜索引擎別稱(chēng)

　　　　　　　　Googlebot 谷歌

?　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　類(lèi)似我們測(cè)試環(huán)境就設(shè)置了

　　　　User-agent : / 所有搜索引擎

　　　　Disallow : / 禁止整站

GPU云服務(wù)器云服務(wù)器爬蟲(chóng)如何使用如何使用網(wǎng)絡(luò)爬蟲(chóng) 爬蟲(chóng)爬取數(shù)據(jù) java爬蟲(chóng)爬取數(shù)據(jù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/1875.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

RyanHoo

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

[黑五]RackNerd：多機(jī)房VPS年付10.88美元起

閱讀 2149·2021-11-23 10:13
#11.11#阿里云雙11上云狂歡節(jié)，云存儲(chǔ)產(chǎn)品低至1折起，OSS標(biāo)準(zhǔn)型存儲(chǔ)包￥79.20/年起

閱讀 2853·2021-11-09 09:47
主機(jī)名稱(chēng)是指什么-手機(jī)正常的主機(jī)名是什么？

閱讀 2803·2021-09-22 15:08
易探云：9月秒殺活動(dòng),美國(guó)圣何塞/洛杉磯云服務(wù)器33/月起;香港CN2/BGP云服務(wù)器低至18元/月

閱讀 3390·2021-09-03 10:46
關(guān)于CSS3 flex布局，這樣簡(jiǎn)單做就好了。

閱讀 2291·2019-08-30 15:54
CSS3的content屬性詳解

閱讀 988·2019-08-28 18:09
數(shù)組去重

閱讀 2487·2019-08-26 18:26
無(wú)縫輪播圖

閱讀 2395·2019-08-26 13:48

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

如何使用robots禁止各大搜索引擎爬蟲(chóng)爬取網(wǎng)站

相關(guān)文章

**Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---23、使用Urllib：分析Robots協(xié)議**

**11、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy使用**

**Python爬蟲(chóng)筆記1-爬蟲(chóng)背景了解**

scrapy提升篇之配置

發(fā)表評(píng)論

0條評(píng)論

RyanHoo

男|高級(jí)講師

TA的文章

[黑五]RackNerd：多機(jī)房VPS年付10.88美元起

#11.11#阿里云雙11上云狂歡節(jié)，云存儲(chǔ)產(chǎn)品低至1折起，OSS標(biāo)準(zhǔn)型存儲(chǔ)包￥79.20/年起

主機(jī)名稱(chēng)是指什么-手機(jī)正常的主機(jī)名是什么？

易探云：9月秒殺活動(dòng),美國(guó)圣何塞/洛杉磯云服務(wù)器33/月起;香港CN2/BGP云服務(wù)器低至18元/月

關(guān)于CSS3 flex布局，這樣簡(jiǎn)單做就好了。

CSS3的content屬性詳解

數(shù)組去重

無(wú)縫輪播圖

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

如何使用robots禁止各大搜索引擎爬蟲(chóng)爬取網(wǎng)站

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！