架構面
爬蟲框架
- Simple Crawler 或 Scrapy
資料庫
- MongoDB
- Document store Database model
快取
- Redis
- 放置拋棄式資料,減少對 IO 的存取
Search engine
- 全文檢索框架
- 反正規化,並不是所有塞到資料庫的資料,都需要檢索。
- Elasticsearch
- Search engine Database model
- A modern search and analytics engine based on Apache Lucene
Scrapy 架構圖
延伸閱讀