大數據的定義中有四V,巨量(Volume)、快速(Velocity)、多樣(Variety)和疑真(Veracity)。我在數據工程的實務中,主要是負責大數據平台Hadoop和Spark平台的維運與開發,面對多樣化資料(Variety)的處理是相對陌生的。恰好看到這本「Python大數據特訓班(第二版)」,主軸環繞在使用Python語言進行網路資料擷取、數據清洗與儲存等實用技術,想當然耳要買來研習一番。
Python世界中有五花八門的模組可讓工程師運用,而書中挑選的Numpy、Pandas和Matplotlib都是數據處理時核心的選項。比起自個在Stack Overflow網站中查閱零碎片段的程式碼,書中以小節為單位,漸進式地展示這些模組的用法,整理了許多執行數據工程任務時常用的功能,讓我覺得十分受用。相信熟讀「Python大數據特訓班(第二版)」後,未來在面對專案的數據爬蟲需求時,能充滿自信地說一聲「I'm ready」。
全書內容簡潔充實,很適合做為大數據入門的教材,若搭配個兩天16小時的上機練習,完全就是一堂收費上萬元的資◯會課程,可以學到基礎的網站爬蟲與數據清洗實務。可惜的是雖然書名有寫著「第二版」,但看來再版時編輯並沒有再次詳細檢閱內文。書中後半的練習無法讓讀者照本宣科地完成,原因是當做範例的網站頁面內容已有變動。對初學者來說肯定十分苦惱,但轉念來看,如果把它看成進階的練習題,強迫讀者活學活用剛從書中學會的技巧,自力完成分析網頁結構的挑戰,倒也不是件壞事。

沒有留言:
張貼留言