Pages

Subscribe:

Ads 468x60px

Labels

2014年5月21日 星期三

2014年5月15日 星期四

robot.txt的規則以及寫法

BY  ON 2013 年 11 月 02 日 18:25:01 ON WEB資料
首先,我們先談些小知識。
1、並不是所有的網站都要建立robot.txt文件。只有當網站存在不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。當robot.txt不存在的時候,搜索引擎蜘蛛就會直接爬鏈接。
2、robot.txt文件只能放在網站的根目錄下,放在其他地方不能被發現。
3、每個站點只能夠有一個robot.txt。註:二級域名被搜索引擎視為一個新的站點。
4、文件名「robots.txt」為小寫字母,其他如Robots.txt或robots.Txt等都是不正確的寫法,命名錯誤將會被搜索引擎的蜘蛛忽略。
 
再來是robot.txt的書寫語法。
robot.txt文件的語法主要包括了User-Agent、Disallow、Allow這三個命令。
 
1、User-agent:
其後面接的是具體的搜索引擎的蜘蛛的名字。如果其值設置為「*」,則表示對任何蜘蛛都有效。
在"robots.txt"文件中,可以有多條User-agent記錄,但「User-agent:*」這樣的記錄只能有一條。
如果在"robots.txt"文件中,加入"User-agent: SomeSpider “和若干Disallow、Allow行,那麼名為"SomeSpider"只受到"User-agent: SomeSpider “後面的Disallow和Allow行的限制。
 
2、Disallow:
不希望被訪問的URL或者文件夾,可以是完整的路徑,也可以是路徑的非空前。robots.txt文件中,至少要有一條Disallow記錄。Disallow的內容對大小寫敏感,書寫時要注意大小寫。
 
3、Allow:
可以被訪問的一組URL,與Disallow項相似,這個值可以是完整的路徑,也可以是路徑的前綴,Allow同樣對大小寫敏感。
 
robot.txt的具體寫法舉例。
 
禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
 
允許所有的搜索引擎訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
或者直接建一個空的robot.txt文件。
 
僅禁止某種蜘蛛訪問,例如google
User-agent: Googlebot
Disallow: /
 
僅允許某種蜘蛛訪問,例如google
User-agent: Googlebot
Disallow:
 
User-agent: *
Disallow: /
 
禁止搜索引擎訪問網站的特定目錄
User-agent: *
Disallow: /folder1/
Disallow: /folder2/
 
禁止訪問以.asp 結尾的網址:
User-Agent: *
Disallow:/*.asp$
 
禁止訪問網站中所有的動態頁面,即禁止訪問包含問號(?)的網址
User-agent: *
Disallow: /*?*
 
禁止搜索引擎抓取網站上所有的jpg圖片
User-agent: *
Disallow: /*.jpg$
 
禁止抓取不存在的網頁。如果你的域名之前曾經建過站,那麼一般都會存在一些你網站不存在的網址。這裡建議在建站之前像搜索引擎提交刪除此域名下的所有索引。
 
提供sitemap位置
User-agent: *
sitemap: http://www.domain.com/sitemap.xml

2014年5月14日 星期三

關於全民英檢

您知道天才在想什麼嗎??
今年我老婆有位家教學生今年考上台中一中的科學班
這個班號稱是頂尖中的頂尖
所以
實力也不容小看
全班已經半數通過全民英檢中級
還有三位竟然已經通過中高級
這是甚麼樣的情況
現在高中畢業生有多少是連中級都還過不了
國三畢業就已經到了中高級(大學英語相關科系的畢業程度)
這樣的實力差距落差實在很大、很可怕
所以...
不向頂尖看齊,就自以為滿足
那下場就會很悽慘了...

【黃騰輝 玫瑰藝術】大老闆的夢想清單:台灣首家英式茶館 古典玫瑰園飄香

2014年5月13日 星期二

玫瑰藝術: 【黃騰輝 古典玫瑰園】英女王登基60週年 黃騰輝設計大雙耳紀念授證杯為歷史見證

玫瑰藝術: 【黃騰輝 古典玫瑰園】英女王登基60週年 黃騰輝設計大雙耳紀念授證杯為歷史見證: 英女王伊莉莎白二世,是英王喬治六世和伊莉莎白皇后的長女。她出生於1926年,在25歲時(1952年)登基,在位至今已60年。經歷了英國歷史劇烈的社會發展和變動。女王自1952年登基,到2012年已經屆滿60年。她在1952年2月6日宣布即位,在第二年(1953)的6月2日舉...

提升Google的PageRank,讓網站脫穎而出


我的網站在Google的PageRank「高達」5分,這在繁體個人網站中算是相當前面了,所以很多人常問我PageRank是什麼,又為什麼查很多關鍵字都會進入我的網站,下面是關於PageRank的簡單介紹,希望大家的PageRank都能提高一點,跟其他簡體網站競爭的時候,Google排名也好看一點。
 我脫離「網頁界」已經很久了,起碼從2001年開始,就沒有因為(製作、設計、規畫)網站而獲得任何直接的收入。不過在此之間,我對網路、網站的觀察、研究從未間斷,除了協助朋友架設網站外,也一直經營著現在這個 Richyli.com 。
 Richyli.com 看起來有點樸素、簡單,最近Blog興起之後,這種實用主義的簡約風格又大抬頭,但我的風格已經這樣很久了。在一堆樸素的網站之中,如果你有安裝Google的Toolbar的話,可以發現一件不那麼樸素、簡單的事情:我的PageRank高達5/10分。可能很多人沒有特別的感覺,「不也就是5分嗎?」但我如果跟你說中時電子報每年養了那麼多員工、花了那麼多錢,卻經常只有5分時,你就知道5分代表什麼意義了。
Google Pagerank 5/10

先來說說什麼是PageRank好了。

 在此之前要先確認一個前提:Google是全世界最重要的網路搜尋網站。如果你能夠認同這個觀點,下面的說法跟努力才有意義。如果Google是最重要的搜尋網站,那麼在Google名列前茅,也相當重要。否則網友輸入了某個關鍵字,然後Google說這個關鍵字大約有3,113,500 項搜尋結果,你的網站如果沒有被排在前50名,基本上都很難被使用者看到。
 很多人都會想:「平平我的網站也有這個關鍵字」,為什麼別的網站會出現在我的前面?Google利用了二種工具,來確保左側的關鍵字搜尋結果排名不會被惡意控制(但其實還是可以)。首先是跟早期搜尋引擎一樣的頁面分析,例如在這個頁面中,標題(Title)有沒有哪些關鍵字,頁面中這個關鍵字出現多少次、關鍵字出現在什麼位置。這個東西不是Google的專利,AltaVista就是這樣幹,不過還沒有開始大量獲利,就被Google幹掉了,因為這種方式非常容易被操弄,一個國小學生如果製作了一個總統府網站,而且他也很乖地將標題寫成「總統府」,內頁出現了大量的「總統府」字眼,說不定查詢「總統府」,國小學生的總統府網站可能會出現在總統府官方網站之前。我知道你不喜歡這樣,我也不喜歡。
 Google第二個工具就是後來能夠獨霸一方的秘密PageRank。有了PageRank,Google就知道某個網站是不是確實「很重要」。Google的PageRank一共有10分,11個等級(包含0分)。這個PageRank理論上是浮動的,每個月可能都會變動。
 Google的PageRank公式十分複雜,而且也不是一成不變。但簡單地來說,就是衡量某個網站是否被其他網站(或背後的網站經營者、管理者)所肯定。你如果有網站,通常不會隨便去連結別人的網站,當你連結出去之後,就等於投對方網站一票。Google基本上看幾樣東西:
  1. 連結進來的數量。愈多,當然愈好。
  2. 外部連結網站自己的PageRank。愈高愈好。
  3. 外部連結網站連結出去的數量。越低越好。
 當關鍵字分析的結果相同的時候,Pagerank越高,Google排名就會越前面。但根據我的經驗,Pagerank對於排名的重要性還是比頁面分析高,一個Pagerank 2分的網站,管他內容多麼相關,可能都比不上一個Pagerank 10分但內容低度相關的網頁。

如何提高PageRank

 想要提高PageRank,讓自己的網頁容易被搜索到,其實並不困難。最重要的關鍵就是讓別人的網站連結你的網站,而且對方的PageRank越高越好,但連出來的連結越少越好,下面是幾種可行的方案:
  1. 瘋狂登錄:將你的資料提供給所有搜尋引擎,這樣最起碼PageRank可以向上提升1到2分。
  2. 與朋友互相連結:團結就是力量,你有網站、我也有,只要兩個人的網站互連,就會彼此受惠,PageRank都會提高「一點點」,何樂而不為,而且互相拉抬之後,如果朋友的網站PageRank因此提高,從他那邊分過來的分數也會提高,但也切勿漫無目的隨意內容相差太多的網站,否則可能被當成惡搞。
  3. 提升網站品質:只要你的網站資料豐富、有趣,不用要求也會有人主動連結,這是經營網站的本質,也是確保PageRank的重要手段。我常常上網查到底有誰連結過Richyli.com,每次都覺得很好玩,也很感謝這些站長的連結。
 當然別忘了,Google除了PageRank之外也使用了頁面分析技術,如果你想要被搜尋到,最好盡量將「關鍵字」放在頁面的Title中,然後在頁面中再度提到這些關鍵字,才能確保自己想要被搜尋到的東西真的可以脫穎而出,獲得較好的Google排名,讓網頁在Google的第一頁出現。
 除了Google之外,目前許多後起的搜尋引擎其實多少也仿效了PageRank的技術,只不過PageRank已經註冊商標了,所以其他搜尋引擎不敢大聲嚷嚷。無論如何,只要你網站的內容豐富、在大型搜尋引擎登錄,不論搜尋技術如何改,名次都不至於太差。如果你真的沒有能力把Google左邊的排名做上去,Google同情你,允許你花錢買右邊的AdWord!(李怡志,2004/08/17)

10個增加流量及網站搜尋排名的方法

相信站長們最在意的就是網站在搜尋引擎的排名還有訪客瀏覽量,除了認真寫文章以外,還有幾個可以增加瀏覽量且提高網站排名,但是….前提仍然是認真寫文章。也許有人會覺得很諷刺,明明本站也沒多大,憑什麼寫這種文章,在此小弟說一下,這是依照網路上收集整理而且精實計測是有用才放到這上面的,不是小弟憑空瞎掰!

一定要用流量分析工具(如Google分析)

為什麼呢?很簡單,站長可以很容易的藉由分析工具看出哪些文章特別受關注,像本站的Android Flash安裝就連續4個月榮登熱門文章榜首,代表讀者特別喜歡類似這樣的文章,那就多寫一點這種文章。
但是,也要注意一下,因為有可能只是潮流,潮流過了什麼也沒了,就像之前的Now.in,曾經每日流量這篇文章佔了一半以上,現在呢?前50名文章都沒有,這就是所謂的「潮流」,過了,什麼也不會留下

robots.txt是必要的

不論如何,「一定」要在網頁根目錄放置robots.txt,避免蜘蛛不小心將不該收錄的東西也收錄了,同時也可以減少蜘蛛(機器人)在網站花的時間,沒用的檔案,像之前Google就把wp-include裡的一個js檔案也收錄了,這就是不加robots.txt的下場,還有,最好在robots.txt也加上sitemap網址(下一點會介紹)。
註:需要的話可以參考本站robots.txt

一定要有sitemap

Sitemap是告訴機器人(蜘蛛)網站有哪些網頁,如果沒有這個,就只能從文章中的連結去偵測,也就有可能漏掉一些網頁,或導致新文章過很久才被收錄,Sitemap需要在robots.txt宣告,一樣可以從本站robots.txt找到,一般都是sitemap.xml,有些WP外掛也可以做成.gz壓縮檔,如sitemap.xml.gz

多和網友互動

基本上在本站留言,小弟一定會回復,有一點一定要記住,網友通常比較喜歡可以溝通+互動的站長,有留言一定要回,證明你在意,且尊重網友,自然網友就會再來,流量當然也就跟著高!

減少網頁載入速度

其實有些機器人(蜘蛛)是會在收錄資料同時,順便偵測網頁載入速度,排名時同時依據這個數據,研究也顯示,一般來說只要網頁載入速度太慢,就會使訪客離開網頁的意願大增,請盡量少用過於花俏的裝飾或不必要的小玩具遊戲,避免載入太慢。

製作網站Tag(如Sitetag)

網站標籤製作工具小弟最推薦Sitetag,可以自動產生網站標籤,如果有人收尋到該字串就可以找到你的網站,例如有人收尋「Raspberry Pi」,而剛好你的網站有這個標籤,那Sitetag之類的網站標籤就會有個網頁,上面就有你網站的連結,訪客自然就來了。

標題下的夠力

標題要有力,但不是騙人,舉個例子,如果有個標題是「筆電開箱」,應該沒有很大的動力去看,但如果是「這台筆電有多威,快到嚇的尿褲子」,應該就有一個動力,想要去了解到底多快,而這只是誇飾,並沒騙人(相信大家也都知道這絕對是誇飾,但是如果讀者有尿失禁問題,那就是真的了)。

善用社群的力量

這是百講不膩的招數,但真的有效,網頁中一定要有讚和+1,當使用者手殘(誤)有興趣時,就會按一下(應該吧),如果怕使用者不按,也可以主動分享到社群網站,像現在本站約有四分之一的流量來自FB和G+(FB較多),絕對有效!
請注意,分享是指單次,不是要到FB瘋狂灌水,這樣只會使讀者觀感不佳而已。

關鍵字很重要

大部分(幾乎全部)的搜尋引擎都會判斷網頁是否有合理多次重複關鍵字,以判斷關連性,因此,文章的關鍵字要多且「合理」,不是要你一頁幾百的關鍵字,而是要適時的放,而且關鍵字多,也比較容易使文章不離題。

把網站提交給Google、Bing

如果不想等收尋引擎找上門,也可以直接把網站提交給GoogleBing,這就是所謂的「網站管理員」(Webmaster)(註:因為Yahoo是直接用Bing的結果,所以不用提交)提交後也可以對資料做出分析,這些資料都是收尋引擎分析曝光數(會出現在收尋結果的次數)、點擊率(收尋者點擊的機率)、robots.txt/sitemap偵測等功能,資料一定比第一點所說的分析工具仔細多。但是,請先搞清楚兩者差異,一般分析工具是進行「所有」的分析,Webmaster是進行「只關於收尋」的分析,所以建議兩者都要用,並交叉比對來做出最準確的分析。
註:Google分析可以和Google Webmaster做結合,因此可以直接在Google分析看到Webmaster的分析,方便許多。

最後~文章寫的好,流量不減少

不管用了多少招數,甚至作弊,沒有好內容,也稱不了多久的,文章的內容一定要好,不然在多文章也沒用(可見此篇文章),文章好,更新頻率也別太低,也許現在這篇文章很有名,兩個月後呢?也許還是能帶來主要流量,但六個月後呢?一年後呢?最多帶來部分流量,主要流量是幾乎不可能的,相本站一直穩坐第一的Android Flash安裝,流量也已經緩緩衰退的趨勢(非常慢)。因此,文章好更新頻率高(但不是每天幾十篇喔~讀者會被大腦轟炸),這點先做到,在去做上面九點,否則上面做的在好,輸在這點就是白做了。
寫完之後,感想是……好難寫,這篇文章花了我3天才寫完,即使只包含措詞和打字,也花了三到四個小時,查資料更是找了快50個網站,還要到Google分析之類的驗證我所寫的正確性,實在麻煩阿~最後,希望大家會喜歡!!還有,這篇好像有2200多個字(依據WP後台編輯器顯示是2254個字,不知道後台的字數統計準不準~)~好多喔~好久沒有寫這麼多字了,而且還都是自己打,完全沒有複製貼上(像程式碼通常都是直接複製貼上),我突然發現,我的手快殘廢了…..