阿洪之聲: robot.txt的規則以及寫法

2014年5月15日星期四

robot.txt的規則以及寫法

BY ERIC0703 ON 2013 年 11 月 02 日 18:25:01 ON WEB資料
首先，我們先談些小知識。
1、並不是所有的網站都要建立robot.txt文件。只有當網站存在不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。當robot.txt不存在的時候，搜索引擎蜘蛛就會直接爬鏈接。
2、robot.txt文件只能放在網站的根目錄下，放在其他地方不能被發現。
3、每個站點只能夠有一個robot.txt。註：二級域名被搜索引擎視為一個新的站點。
4、文件名「robots.txt」為小寫字母，其他如Robots.txt或robots.Txt等都是不正確的寫法，命名錯誤將會被搜索引擎的蜘蛛忽略。

再來是robot.txt的書寫語法。
robot.txt文件的語法主要包括了User-Agent、Disallow、Allow這三個命令。

1、User-agent:
其後面接的是具體的搜索引擎的蜘蛛的名字。如果其值設置為「*」，則表示對任何蜘蛛都有效。
在"robots.txt"文件中，可以有多條User-agent記錄，但「User-agent:*」這樣的記錄只能有一條。
如果在"robots.txt"文件中，加入"User-agent: SomeSpider “和若干Disallow、Allow行，那麼名為"SomeSpider"只受到"User-agent: SomeSpider “後面的Disallow和Allow行的限制。

2、Disallow:
不希望被訪問的URL或者文件夾，可以是完整的路徑，也可以是路徑的非空前。robots.txt文件中，至少要有一條Disallow記錄。Disallow的內容對大小寫敏感，書寫時要注意大小寫。

3、Allow:
可以被訪問的一組URL，與Disallow項相似，這個值可以是完整的路徑，也可以是路徑的前綴，Allow同樣對大小寫敏感。

robot.txt的具體寫法舉例。

禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /

允許所有的搜索引擎訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者直接建一個空的robot.txt文件。

僅禁止某種蜘蛛訪問，例如google
User-agent: Googlebot
Disallow: /

僅允許某種蜘蛛訪問，例如google
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

禁止搜索引擎訪問網站的特定目錄
User-agent: *
Disallow: /folder1/
Disallow: /folder2/

禁止訪問以.asp 結尾的網址：
User-Agent: *
Disallow:/*.asp$

禁止訪問網站中所有的動態頁面，即禁止訪問包含問號(?)的網址
User-agent: *
Disallow: /*?*

禁止搜索引擎抓取網站上所有的jpg圖片
User-agent: *
Disallow: /*.jpg$

禁止抓取不存在的網頁。如果你的域名之前曾經建過站，那麼一般都會存在一些你網站不存在的網址。這裡建議在建站之前像搜索引擎提交刪除此域名下的所有索引。

提供sitemap位置
User-agent: *
sitemap: http://www.domain.com/sitemap.xml

Pages

阿洪之聲

Ads 468x60px

Labels

Popular Posts

推薦網站

2014年5月15日星期四

robot.txt的規則以及寫法

沒有留言:

張貼留言

Blog Archive

標籤

總網頁瀏覽量

Pages

阿洪之聲

Ads 468x60px

Labels

Popular Posts

推薦網站

2014年5月15日 星期四

robot.txt的規則以及寫法

沒有留言:

張貼留言

Blog Archive

標籤

總網頁瀏覽量

2014年5月15日星期四