SEO優化必知搜索引擎運作原理:檢索、索引、排名

想操作SEO先從了解搜尋引擎的運作原理開始,本篇告訴你搜尋引擎的三大運作過程「檢索」、「索引」、「排名」,若你想要讓網站排名快速提升,那在了解SEO其他技巧前,了解運作原理是非常重要的。

搜索引擎三個運作過程

  1. 檢索(Crawl):透過連結做為路徑,透過爬蟲機器人,抓取各式網站頁面的內容資料。
  2. 索引(Index):儲存收錄先前抓取(Crawl)到的網站資料,且只有經過索引後的頁面,才會顯示在搜尋引擎的搜尋結果上。
  3. 排名(Rank):為了提供搜尋者的最佳答案,搜尋引擎藉由演算法呈現它認為最能解決搜尋者問題的搜尋結果,這些搜尋結果都是經過排名(Rank)後所呈現。

Google、Yahoo、Bing…等每個搜尋引擎運作原理相同?

每個搜尋引擎基本上都是經過上面這三個步驟,但細項操作有所不同,如每個搜尋引勤的排名(Rank)演算法都不一樣、使用的工具、語法、設定也都有差異,但也不用擔心,不用為了迎合每個搜尋引擎而花費過多的時間在這上面,因為Google在搜尋引擎的市場上佔據超過90%,因此基本都是以Google為主來操作。

搜尋引擎優化

圖片來源:https://moz.com/blog/state-of-searcher-behavior-revealed

搜索引擎 – 檢索(Crawl):

檢索就是Google定期派出網路爬蟲蜘蛛(Google Spider)透過連結作為路徑,不斷抓取新頁面內容的過程,內容包含網頁、影片、圖片、PDF…等各種型式。

你的頁面有被檢索嗎?

世界上有高達上億個網站,而且多數網站也都會定期更新貨產出新的內容,蜘蛛要在短時間全部爬完不是一時半刻就能完成的,因此為了讓蜘蛛可以有效率的爬取,Google針對不同大小的網站、更新的時間、品牌權重…等來調整蜘蛛爬取的頻率,每個網站每天被蜘蛛抓取的URL 數量,就是所謂的Crawl Budget,Crawl Budget決定了你的網站內容是不是能完整被Google收錄的關鍵之一。

如何知道自己的網站有多少的Crawl Budget ?

前往Google Search Console,選擇你要查詢的網站後,點擊「檢索」—>「檢索統計資料」,以我的網站來看每日平均是「78」的數目,而我的網站目前頁面數目也在100以下,換句話說,我的網站的所有內容基本上每天都會蜘蛛檢索到。

google search console檢索

*通常來說,只有大型網站要比較擔心Crawl Budget的問題(頁面大於1,000以上,也有人說要10,000以上,實際看Search Console最準)

搜索引擎 – 索引(Index):

Google存儲它在先前檢索到的網站資料,如此才能在後續提供給搜尋者。確保網站內容被索引極度重要,這是搜尋者是否找得到你的內容的關鍵,要注意的是即便網站有被GoogleBot檢索,仍然不代表有被索引,透過兩種方法知道多少頁面成功被索引:

1.只要在Google搜尋欄打上”site:yourdomain.com”,就可以知道有多少頁面是真正會顯示在Google搜尋結果了,像我的網站目前就有64個頁面已經完成索引。

網站索引檢查

2.使用Google Search Console監控,點擊「索引」—>「涵蓋範圍」,就可以看到頁面被索引的狀態。

google search工具

常見頁面沒有被索引的原因:

  • 網站是全新的。
  • 網站未被任何其他網站連結進來。
  • 網站架構複雜、層級過多且許多獨立頁面,使機器人很難有效的抓取。
  • 網站包含搜尋器指令的基本代碼,如Noindex、Robot.txt阻止搜索引擎索引。
  • 網站違反Google條款,而受到懲罰。(通常是被判定垃圾內容)

*如果還沒有Search Console,建議直接去申請一個,這是在SEO操作一定會使用的工具

搜索引擎 – 排名(Rank):

每次的搜尋,搜尋引擎都會在搜尋結果中呈現高度相關的內容,這些內容都是經過演算法而被排序的。通常網站的排名越高,表示搜索引擎認為該網站與關鍵字詞的相關性就越高,市面的SEO服務,主要就是專注在這塊的優化。

除了注意網站頁面是否有被檢索並索引外,也必須讓無用、測試、重複頁面…等對SEO有負面影響的頁面,確保不會被GoogleBot所找到的,這時你可使用robots.txt。

Robot.txt

Robots.txt主要功能在搜尋引擎檢索網站時,告訴它網站哪些內容可以被檢索,哪些內容可以不用被檢索,輸入“yourdomain.com/robots.txt”來查看,網站目前所設定的Robot.txt,例如https://www.zeczec.com/robots.txt,就可以看到該網站目前有哪些頁面不希望被檢索。

Robot.txt設定教學

設定Robot.txt後,頁面仍有可能被檢索?

Google 不會對 Robots.txt 所封鎖的內容進行檢索或建立索引,但若是透過網路上其他網頁的連結發現該被設定Robot.txt的頁面,仍然會建立這些網址的索引仍然會出現在 Google 搜尋結果中。如要完全避免這種情形,建議使用密碼保護伺服器上的檔案,或是搭配使用Noindex、移除網頁。另外,以下是常見不希望被收錄的三種頁面:

  1. 測試頁面:有些網站上線是為了協作測試,並不想被搜尋引擎檢索內容,這時就可以用到Robots.txt做排除了(可搭配Noindex使用)
  2. 網站後台:Wordpress、Wix…等架站平台,都會提供管理者後台登入的頁面,就沒有被檢索的必要。
  3. 會員的個人頁面:會員的個人頁面,無被檢索的必要。

除了Robot.txt外,還有什麼原因可能會讓Google無法檢索你的內容呢?

1.需登入才能進入的頁面:有些網站會提供一些會員專屬的內容或付費內容,任何隱藏在「登入」後才能看到的頁面內容,Google都不會進行檢索。

2.內容隱藏在圖片、影片內:從SEO排名的角度來看,不該把所有的內容都用圖片、影片…等非文字形式去呈現,因Google無法完全判讀該內容型式所要傳遞的資訊,仍須以Html文字型式呈現。

3.頁面被孤立:Googlebot 需要透過連結為路徑去爬其他頁面,若是特定網頁是被孤立的,並無任何連結到達,Google也會很難爬到該頁面的資料。

SEO網站架構

圖片來源:https://backlinko.com/hub/seo/architecture

4.過多的使用JavaScript:

因JavaScript的語言特性不易讓爬蟲程式檢索,若是Loading過久會讓Google不易爬取。

延伸閱讀:SEO趨勢 : Javascript 會影響搜尋引擎抓取?

設定Sitemap網站地圖,確保被完整收錄

Sitemap網站地圖,就像是網站的目錄,將不同頁面依分類呈現,並告訴Google說網站涵蓋哪些頁面,透過提交 Sitemap可以增加網站被完整收錄的可能(提交 Sitemap 和提升 SEO 排名沒有直接關聯),若網站大改版,各別手動在Search Console 提交,建立索引過於費時,這時可更新 Sitemap 並重新提交,方便 Google 爬蟲檢索網頁。提交Sitemap非常簡單,只需要以下兩個步驟:

1.建立網站的Sitemap檔案:

利用線上的免費資源快速生成 Sitemap.xml 檔案,常見的使用工具有XML sitemap Generator 或是 Yoast SEO

sitemap製作教學

2.到Search Console 提交Sitemap檔案:

進入Search Console —> Sitemap —>輸入Sitemap網址 ,以上就完成Sitemap的提交。

Google檢索到你的頁面時,頁面是否有出現出錯誤?

瀏覽網站點擊特定連結常有無法觀看、找不到頁面、404錯誤、…等其他錯誤狀態出現,相對的,表示Google在檢索該網頁時也會出現問題,因此你需要找出問題點並修正,有時候是伺服器端、有時是客戶端所導致。

延伸閱讀:Http狀態碼完整介紹

補充一點,很多時候我們會進行網址的調整,會導致若是先前訪客儲存的網址是舊的,這時可設定301轉址,就是當訪客連結舊網址時,頁面會自動轉址到新網址上,但要注意的是,轉址中間經過的網址盡量不超過1個,換句話說就是不要A—>B—>C(可以設定成A—>C, B—>C),因為多次的轉址會讓Googlebot難以到達你的頁面。

告訴搜索引擎如何索引你的網站

透過設定搜尋引擎提供的語法,幫助Google知道你希望它如何索引你的網站,例如“不要在搜尋結果中顯示該頁面”或“不要將任何連結權重傳遞給該頁面上的其他連結“。這些指令通過頁面<head>中的Robots Meta標籤,以下是最常見的兩種指令:

1.index/no index 告訴Google是否應該對頁面進行索引,在網頁HTML語法的<Head>底下加入: <meta name=”robots” content=”noindex”>就完成了,該語法用於個別頁面,因此,當你的網站中有3個網頁不想被Google索引時,便需在這3個網頁上各別手動輸入該指令。

  • 使用時機:該頁面沒有出現在搜尋結果的必要,甚至出現是對SEO有負面影響的頁面(如測試頁面、會員頁面、隱私權頁面等)。

2.follow / nofollow告訴搜索引擎是否要透過該頁面的連結前往其他頁面以及權重分數是否要傳遞給這些連結呢。預設下,所有頁面都是follow。

  • 使用時機:留言只為了「外部連結」來增加權重的狀況、網站內容提到一些負面網站,如內容農場,你也不會希望把網站權重分給對方。

延伸閱讀:Google索引語法使用官方文件

搜索引擎如何對URL進行排名?

Google為了確保搜尋結果的呈現能完整解答搜尋者的困惑,搜索引擎使用複雜的演算法,演算法涵蓋了超過200種排名因素,且每個因素具備不同的權重,根據操作經驗來看,推測每個產業對應到不同的關鍵字,而每個關鍵字的SEO權重也不相同,例如有些關鍵字做外部連結很容易排名往上衝、但有些關鍵字可能只要網站權重高就容易前幾名。

*演算法時常改變,因應惡意操作SEO的人,以提高搜索結果的質量。

seo排名

 

資料來源:2020 SEO10大排名因素解析