爬蟲種類

General Purpose Web Crawler

別名 Scalable Web Crawler,爬行對象從一個種子 URL 開始擴大到整個 Web,主要為入口網站搜尋引擎的爬蟲,追求最大覆蓋率。

體系結構

  • 頁面爬行模組
  • 頁面分析模組
  • 連結過濾模組
  • 頁面資料庫
  • URL queue
  • 初始化 URL

Focused Web Crawler

根據特定目標抓取,有選擇性的訪問網路上的頁面與相關的連結,獲取所需要的訊息。

Incremental Web Crawler

針對已經下載的網頁採取增量式更新,只爬行新產生的網頁或著已經發生變化的網頁的爬蟲,確保資訊是最新的。

Deep Web Crawler

普通搜尋引擎難以發現的網頁,深層頁面中的資訊量比普通的頁面資訊量更多,而且質量更好,但是普通的搜索引擎因技術限制而搜集不到這些訊息。例如必須登入資後才能得到的資訊,或跟頁面有 Javascript 互動後才能取得的資訊。

results matching ""

    No results matching ""