Sitemap是什麼?免費開源Sitemap產生器完成網站地圖!

Sitemap是什麼?對爬蟲有幫助嗎

我們在為何網站沒出現在Google搜尋結果?以及如何優化網站連結效益?提到Google索引網站的流程之一,是需要爬蟲可以藉由網站內的<a href=””>連結,才可以發現頁面並檢索。這是爬蟲主要的爬取手段沒錯,但如果要推薦對爬蟲更友善的做法,在一個頁面中一口氣提供所有的網址,換作是人的角度來看,也會是非常方便的做法吧!

Sitemap就是上述功能的產物,如同”地圖”一樣可以告知爬蟲網站內的網址一共有哪些,減少了孤兒頁面的產生爬蟲尋找連結的效率。雖然Google官方資訊中提到小網站不需要建置Sitemap,但在如此競爭的SEO戰爭下,任何可以優化網站的手段都要好好把握!

Sitemap可相容那些格式?

Sitemap主要以三種格式存在,分別是”XML”、”RSS、mRSS”、”txt”。然而事實上我們不太需要太深入思考我們需要裡用哪一種格式,除了極少數會自行將網址羅列出來,以”txt”方式成呈現,絕大部分的外掛、線上產出程式會以”XML”的形式產出。

我們唯一需要留意的,則是有沒有正確上傳至網站後台,以及提交至Google Search Console後有沒有被回報錯誤即可。

Sitemap裡面寫了什麼?

常見的Sitemap中基本上都只會有頁面網址而已,然而事實上Google也還可以擷取更多不同種的網址,企業可根據自身需求加裝以下類型的sitemap。

◆ 影片Sitemap

為了對應短影片及YouTube的興盛,Google針對網站內嵌入的影片做了加強,在Sitemap中增加<video:title> “影片名稱”、<video:content_loc>”影片鑲嵌的網址”等必要資訊,爬蟲除了在一般頁面中尋找影片時,也可以從Sitemap中尋找到哪個頁面含有特定影片。

然而這項功能需要的資料較多,建置上比較麻煩,目前除了myvideo這類的影音平台之外,幾乎沒有看到哪間企業為了幾個影片,而花心力另外新增資料。

◆ 圖片Sitemap

圖片Sitemap則非常適合各企建置,尤其是圖片、商品眾多的網站特別適合,只需要在Sitemap中新增<image:loc>”圖片網址”便可以完成。
另外,如果你的網站是CSR(客戶端渲染)或是利用Javascript渲染網站內容,建立圖片Sitemap也可以幫助Google了解你的頁面中含有那些圖片

★TIP:所謂的「CSR(客戶端渲染)或是利用Javascript渲染網站」,也就是關閉瀏覽器的Javascript功能時,網站內容無法正常出現的網站。Google雖然聲明仍然可以爬取頁面內容,但仍需要花費較多運算資源的關係,在SEO上仍然少部分缺點存在。

◆ 新聞Sitemap

如果你是新聞類型的網站,新聞Sitemap則應該可以幫助到你,在Sitemap中新增<news:news>專屬標記,則可以讓Google知道頁面屬於最近的新聞。
然而需要注意,Google特別聲明在新聞發佈的兩天後,需要在Sitemap移除該網址,因此對於系統建置上會有更高的要求。

如何產出Sitemap

◆ XML Sitemaps Generator

XML Sitemaps Generator可以說是最耳熟能詳的Sitemap建置工具,只需要在頁面中輸入網址,該工具則會派一個爬蟲,模擬Google爬取你的網站並生成一個XML型Sitemap。
然而該工具在免費版中僅能爬取500個網址,因此對於更大型的網站則需要付費或另尋其他方法。

工具連結:https://www.xml-sitemaps.com/

◆ 安裝CMS、電商平台可相容外掛

如果你是利用市面上有名的網路開店平台,通常都會內建Sitemap產生器,或是另外開啟外掛即可。而如果你是使用CMS內容管理系統,例如Wordpress則建議可以下載Yoast等等的外掛,除了生產Sitemap之外,自動更新也減去你的大半工作時間。

◆ 利用Python爬蟲產生 By已見室

作為一個研究員,把手邊的木棒組成一個小工具也是合情合理的!

己見室利用python的模組及Google colab的特性,成功做出可以在線上爬取全站的連結並產出XML型sitemap。各位只需要修改紅框內的網址,並點擊上圖的播放按鈕變可成功運行。

詳細操作步驟及注意須知,請見【python與SEO】Scrapy模組應用,簡易生成Sitemap

提交Sitemap至Google Search Console

產出Sitemap並上傳至後台之後,建議在到Google Search Console介面中,點擊「Sitemap」報告,輸入剛剛上傳的Sitemap網址並點擊提交,就可以通知Google目前網站的Sitemap在哪個位置並爬取囉!

看完了這麼多,我想你對網站連結優化已經有了一定的了解,如果喜歡我的文章,或是未來想要了解更多關於SEO的消息,請關注我的網站,我會努力將各種知識分享給各位:)


Last Updated on 17 9 月, 2023 by 己見室

取自日文「實驗室(じっけんしつ、jikkensitu)」,在自己的網站上做一些實驗性的修改、優化,同時將這份「自己的所見所聞」分享給所有人,在兩個想法的結合下「己見室」就這麼誕生了。 未來會持續以自身經驗、實際操作過的步驟,帶給各位SEO、數位行銷領域相關的優化方法,請各位持續關注這個網站。

Comments

No comments yet. Why don’t you start the discussion?

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *