日期:2014/07/20 / 分類:網站經營 / 作者:軟體APP

並不是每一頁的內容都希望被搜尋器收錄文章,有時候擔心是重覆頁面說明的發生,或是有隱私不想被搜尋,此時該怎麼操作才是正確的,拒絕被蜘蛛爬文的方式一共有三種,我將在文章中一一跟大家做說明。

Robots.txt 操作法
這個檔案放在網站的根目錄檔名為Robots.txt,拒絕被收錄的語法如下:

User-agent: *
Disallow: /資料夾1/

這段話的意思就是希望*(所有的)搜尋器都不要收入資料夾1的文章。

User-Agent: XXbot
Disallow: /資料夾2/

希望XXbot的搜尋器蜘蛛都不要收入資料夾2的文章。

noindex
圖片來自: 百度百科

Meta Tag操作法
這個操作法是位在每一個html頁面中,將下面一行插入html原始碼中,告知搜尋器的蜘蛛,是否收錄的準則。


參數說明:

  1. all:此html 可被檢索,內文中的超連結被查詢,可被繼續爬文。
  2. none:與all相反意指不被檢索(被收錄至搜尋引擎資料庫),超連結不可以被查詢。
  3. 設定為 index:html 檔案可被檢索。
  4. 設定為 follow:html檔案中的超連結可被查詢。
  5. 設定為 noindex:html檔案中的內文是不允許被檢索,頁面上的超連結可以被查詢。
  6. 設定為 nofollow:html檔案可被檢索,但超連結不允許被查詢。

站長工具管理員法

  1. 每個網站工據管理員,如google或是bing都有其管理工具可提供操作,如Google webmaster tool 或是 Bing webmaster tool都可以針對頁面或是參數告知搜尋引擎不要將頁面收錄至搜尋引擎資料庫。
  2. 不論那一種的操作方法都能讓搜尋引擎不要收錄該文章進搜尋資料庫,但請注意你必須留心是否操作正確,否則可能讓整站都無法正確被搜尋。
鄰近: 上一篇: 下一篇:
標籤:
向上滑動
手機選單