爬蟲相關理論

網路爬蟲多個暱稱

  • Crawler
  • Spider
  • Bot

劉兵的《Web數據挖掘》在研究信息抽取問題時,主要採用的是三種方法:

  • 手工方法:通過觀察網頁及源碼找出模式,再編寫程序抽取目標數據。但該方法無法處理站點數量巨大情形。
  • 包裝器歸納:它英文名稱叫 Wrapper Induction,即有監督學習方法,是半自動的。該方法從手工標註的網頁或數據記錄集中學習一組抽取規則,從而抽取具有類似格式的網頁數據。
  • 自動抽取:它是無監督方法,給定一張或數張網頁,自動從中尋找模式或語法實現數據抽取,由於不需要手工標註,故可以處理大量站點和網頁的數據抽取工作。

資料來源

results matching ""

    No results matching ""