今日特马结果歡迎您的到來!

您現在的位置是:首頁 >> 關于我們 >> 應對蜘蛛抓取基本策略

應對蜘蛛抓取基本策略

時間:2019-01-24 15:25來源:《SEO搜索引擎優化:技巧、策略 作者:陳媛先 點擊:

在蜘蛛實際抓取網頁的過程中,因為網頁内容的複雜性(文本、Flash、視頻等)和技術實現的多樣性(純靜态、動态加載等),為了更高效地利用蛛蛛資源,搜索引擎公司會置頂不同的抓取策略,作為SEO人員,可以參考搜素引擎公司對抓取策略的描述,采用最大化的SEO方法。

作為國内最大的搜索引擎公司,百度在它的官方文檔中是如下這樣描述抓取策略的。
互聯網資源具有龐大的數量級,這就要求抓取系統盡可能高效地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取到有價值的資源。這就造成了另一個問題,耗費被抓取網站的帶寬造成訪問壓力,如果程度過大,将直接影響被抓取網站的正常用戶訪問行為。因此,在抓取過程中要進行一定的抓取壓力控制,實現既不影響網站的正常用戶訪問,又能盡量多地抓取到有價值資源的目标。

通常情況下,采用的最基本的方法是基于IP的壓力控制。這是因為如果基于域名,可能存在一個域名對多個IP(很多大網站)或多個域名對應同一個IP(小網站共享IP)的問題。實際工作中,往往根據IP及域名的多種條件進行壓力控制。同時,站長平台也推出了壓力反饋工具,站長可以人工調配對自己網站的抓取壓力,這時Baiduspider将優先按照站長的要求進行抓取壓力控制。
對同一個站點的抓取速度控制一般分為兩類:其一,一段時間内的抓取頻率;其二,一段時間内的抓取流量。同一站點不同的時間抓取速度也會不同,例如,夜深人靜的時候抓取的可能就會快一些。也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷地調整。對于不同站點,也需要不同的抓取速度。
上面的描述很簡潔,但是從這個描述裡面,我們可以得到啟發,蜘蛛抓取頁面是有壓力控制的,對于特别大型的網站來說,不可能指望蜘蛛爬行到一個網站後,會一次性抓取到所有的網站,因此,作為SEO人員來說,盡量減少蜘蛛的壓力,對網站的網頁收錄是有好處的。一般來說,減輕蜘蛛壓力有以下兩種方法。
方法一:采用Nofollow(反垃圾鍊接的标簽)的策略,将蜘蛛引導到最有價值的頁面。Nofollow标簽用來告訴蜘蛛,如果遇到帶着此标簽的頁面或者鍊接,就不要繼續追蹤了,這樣蜘蛛就可以爬行到其他更加有用的頁面。
方法二:在Sitemap中定義不同頁面的權重和更新頻率,就是在網站的Sitemap文件中,定義好每個鍊接的權重和更新的頻率,這樣,蜘蛛在爬行到這些鍊接和頁面的時候,會識别哪些頁面比較重要,可以重點抓取,哪些頁面更新比較頻繁,需要蜘蛛分配更多的注意力。