Powered by GitBook

Scrapy

把網站裝進爬蟲裡，總共分幾步？答案很簡單，四步：

新建項目 (Project)：新建一個新的爬蟲項目
明確目標（Items）：明確你想要抓取的目標
製作爬蟲（Spider）：製作爬蟲開始爬取網頁
存儲內容（Pipeline）：設計管道存儲爬取內容

crapy.cfg：工程的配置文件
scrapy_test：工程的Python文件目錄
scrapy_test/items.py：項目的items文件, 我們需要在此文件中定義需要從網頁中獲取的內容,對應上面說的步驟2
scrapy_test/pipelines.py：項目的pipelines文件, 用於保存處理爬取到的內容, 對應於步驟4
scrapy_test/settings.py：項目的設置文件
scrapy_test/spiders/：存儲爬蟲的目錄, 對應步驟3

通過urllib 獲取網頁的html 代碼，然後利用BeautifulSoup 或lxml 等xml parser解析出我們需要的內容。

Python爬虫框架Scrapy实战之定向批量获取 -CSDN.NET

用scrapy.spider.BaseSpider創建一個子類，並確定三個強制的屬性：

name：爬蟲的識別名稱，必須是唯一的，在不同的爬蟲中你必須定義不同的名字。
start_urls：爬取的URL列表。爬蟲從這裡開始抓取數據，所以，第一次下載的數據將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成。
parse()：解析的方法，調用的時候傳入從每一個URL傳回的Response對象作為唯一參數，負責解析並匹配抓取的數據(解析為item)，跟蹤更多的URL。

延伸閱讀

results matching ""

No results matching ""