阿洪之聲

2014年5月15日星期四

robot.txt的規則以及寫法

BY ERIC0703 ON 2013 年 11 月 02 日 18:25:01 ON WEB資料
首先，我們先談些小知識。
1、並不是所有的網站都要建立robot.txt文件。只有當網站存在不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。當robot.txt不存在的時候，搜索引擎蜘蛛就會直接爬鏈接。
2、robot.txt文件只能放在網站的根目錄下，放在其他地方不能被發現。
3、每個站點只能夠有一個robot.txt。註：二級域名被搜索引擎視為一個新的站點。
4、文件名「robots.txt」為小寫字母，其他如Robots.txt或robots.Txt等都是不正確的寫法，命名錯誤將會被搜索引擎的蜘蛛忽略。

再來是robot.txt的書寫語法。
robot.txt文件的語法主要包括了User-Agent、Disallow、Allow這三個命令。

1、User-agent:
其後面接的是具體的搜索引擎的蜘蛛的名字。如果其值設置為「*」，則表示對任何蜘蛛都有效。
在"robots.txt"文件中，可以有多條User-agent記錄，但「User-agent:*」這樣的記錄只能有一條。
如果在"robots.txt"文件中，加入"User-agent: SomeSpider “和若干Disallow、Allow行，那麼名為"SomeSpider"只受到"User-agent: SomeSpider “後面的Disallow和Allow行的限制。

2、Disallow:
不希望被訪問的URL或者文件夾，可以是完整的路徑，也可以是路徑的非空前。robots.txt文件中，至少要有一條Disallow記錄。Disallow的內容對大小寫敏感，書寫時要注意大小寫。

3、Allow:
可以被訪問的一組URL，與Disallow項相似，這個值可以是完整的路徑，也可以是路徑的前綴，Allow同樣對大小寫敏感。

robot.txt的具體寫法舉例。

禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /

允許所有的搜索引擎訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者直接建一個空的robot.txt文件。

僅禁止某種蜘蛛訪問，例如google
User-agent: Googlebot
Disallow: /

僅允許某種蜘蛛訪問，例如google
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

禁止搜索引擎訪問網站的特定目錄
User-agent: *
Disallow: /folder1/
Disallow: /folder2/

禁止訪問以.asp 結尾的網址：
User-Agent: *
Disallow:/*.asp$

禁止訪問網站中所有的動態頁面，即禁止訪問包含問號(?)的網址
User-agent: *
Disallow: /*?*

禁止搜索引擎抓取網站上所有的jpg圖片
User-agent: *
Disallow: /*.jpg$

禁止抓取不存在的網頁。如果你的域名之前曾經建過站，那麼一般都會存在一些你網站不存在的網址。這裡建議在建站之前像搜索引擎提交刪除此域名下的所有索引。

提供sitemap位置
User-agent: *
sitemap: http://www.domain.com/sitemap.xml

2014年5月14日星期三

關於全民英檢

您知道天才在想什麼嗎??
今年我老婆有位家教學生今年考上台中一中的科學班
這個班號稱是頂尖中的頂尖
所以
實力也不容小看
全班已經半數通過全民英檢中級
還有三位竟然已經通過中高級
這是甚麼樣的情況
現在高中畢業生有多少是連中級都還過不了
國三畢業就已經到了中高級(大學英語相關科系的畢業程度)
這樣的實力差距落差實在很大、很可怕
所以...
不向頂尖看齊，就自以為滿足
那下場就會很悽慘了...

Pages

阿洪之聲

Ads 468x60px

Labels

Popular Posts

推薦網站

2014年5月27日星期二

Articulate Storyline Tutorials (播放清單)

Articulate Storyline Tutorial 1: Authoring

2014年5月25日星期日

芝麻淘課: 【轉載】Articulate最新消息，強力推薦：新一代課件製作工具Articulate Storyl...

芝麻淘課: 【轉載】Storyline:與Articulate Studio的產品比較

2014年5月21日星期三

痞客邦網站列表-快速提升人氣的方法

2014年5月15日星期四

robot.txt的規則以及寫法

2014年5月14日星期三

關於全民英檢

Blog Archive

標籤

總網頁瀏覽量

Pages

Ads 468x60px

Labels

Popular Posts

推薦網站

2014年5月27日 星期二

2014年5月25日 星期日

2014年5月21日 星期三

2014年5月15日 星期四

2014年5月14日 星期三

Blog Archive

標籤

總網頁瀏覽量

2014年5月27日星期二

2014年5月25日星期日

2014年5月21日星期三

2014年5月15日星期四

2014年5月14日星期三