Powered by GitBook

爬蟲種類

General Purpose Web Crawler

別名 Scalable Web Crawler，爬行對象從一個種子 URL 開始擴大到整個 Web，主要為入口網站搜尋引擎的爬蟲，追求最大覆蓋率。

體系結構

頁面爬行模組
頁面分析模組
連結過濾模組
頁面資料庫
URL queue
初始化 URL

Focused Web Crawler

根據特定目標抓取，有選擇性的訪問網路上的頁面與相關的連結，獲取所需要的訊息。

Incremental Web Crawler

針對已經下載的網頁採取增量式更新，只爬行新產生的網頁或著已經發生變化的網頁的爬蟲，確保資訊是最新的。

Deep Web Crawler

普通搜尋引擎難以發現的網頁，深層頁面中的資訊量比普通的頁面資訊量更多，而且質量更好，但是普通的搜索引擎因技術限制而搜集不到這些訊息。例如必須登入資後才能得到的資訊，或跟頁面有 Javascript 互動後才能取得的資訊。

results matching ""

No results matching ""