如何禁止搜索引擎爬蟲(Spider)抓取網站頁面_推廣優化_龍虎鷹師網安服務器維護基地--Powered by www.vqbhynr.com.cn

如何禁止搜索引擎爬蟲(Spider)抓取網站頁面

作者:龍虎鷹師網安SEO優化小組 來源:龍虎鷹師網安SEO優化小組 瀏覽次數:0

本篇關鍵詞:爬蟲頁面搜索引擎
龍虎鷹師網安網訊:以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
 一般情況大家都是希望搜索引擎爬蟲盡可能多的抓取自己的網站但有時也需要告訴爬蟲不要抓?a href="http://www.vqbhynr.com.cn" target="_blank" class="keylink">。熱紓灰ト【迪褚趁嫻?a href="http://www.vqbhynr.com.cn" target="_blank" class="keylink">。
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話)。我通過分析我自己博客的服務器日志文件,給出以下建議(同時歡迎網友補充):
User-agent: Baiduspider
Disallow: /
User-agent: 360Spider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow: /
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent: Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加,添加如下語句:
<meta name=”robots” content=”noindex, nofollow”>
3、通過服務器(如:Linux/nginx )配置文件設置
直接過濾 spider/robots 的IP 段。
小注:第1招和第2招只對“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分別泛指指遵守與不遵守 robots.txt 協議的 spider/robots),所以網站上線之后要不斷跟蹤分析日志,篩選出這些 badbot 的ip,然后屏蔽之。
這里有一個 badbot ip 數據庫:http://www.spam-whackers.com/bad.bots.htm
4、通過搜索引擎提供的站長工具,刪除網頁快照
比如,有的時候百度不嚴格遵守 robots.txt 協議,可以通過百度提供的“網頁投訴”入口刪除網頁快照。百度網頁投訴中心:http://tousu.baidu.com/webmaster/add
如下圖是我的一個網頁投訴:
大概3天左右的時間過去,這個網頁的百度快照也被刪除,說明此種方法也能起效,當然這是不得而為之,屬于亡羊補牢。
5、補充更新
可以通過檢測 HTTP_USER_AGENT 是否為爬蟲/蜘蛛訪問,然后直接返回403 狀態碼屏蔽之。比如:由于api 權限與微博信息隱私保護原因,Xweibo 2.0 版本后禁止搜索引擎收錄。
補充禁用IP方法:
# 拒絕訪問(奇虎蜘蛛)
order allow,deny
deny from 221.194.136.
deny from 220.181.33.
# 拒絕訪問(有道蜘蛛)
deny from 61.135.249.
allow from all
剛才是屏蔽的整個鏡像網站,再舉個例子屏蔽網站的某個頁面:
舉例
User-agent: Baiduspider
Disallow: /1.htm
這個是 屏蔽百度抓取1.htm文件
常見Robots名字
名稱 搜索引擎
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
一些在線robots.txt的工具:
在線生成網站地圖 http://www.xml-sitemaps.com/
寫robots.txt 文件 http://www.mcanerin.com/EN/search-engine/robots-txt.asp
站長工具箱 http://tool.chinaz.com/
最后需要注意,robots.txt文件名必須是小寫,而且放在網站根目錄!
    龍虎鷹師網安服務器維護方案本篇連接:http://www.vqbhynr.com.cn/show-19750-1.html
網站維護教程更新時間:2016-07-14 11:48:43  【打印此頁】  【關閉
全站連接N點 | 龍虎鷹師網安 |  
專業服務器維護及網站維護手工安全搭建環境,網站安全加固服務。龍虎鷹師網安服務器維護基地招商進行中!請QQ:29769479

footer  footer  互聯網安全  footer    

山东体十一选五走势 石家庄小姐服务 江西时时彩 琼崖海南麻将辅助软件 青海快三 足球比分直播即时比分 昨天晚上3d开奖结 今天3d开奖结果是 哪有下日本av片 日本av明星山野写真 昨天世界杯比分是多少中国 麻将上下分 海南环岛赛 五体球视频 手游打牌玩钱的有哪些 钻石帝国 天津十一选五基本走