2019年10月6日 星期日

Spark學習手冊


常常和同為軟體工程師的同事開玩笑,歐萊禮出版的書像是雞肋一樣,「食之無味、棄之可惜」。這樣的評論當然有失公道,畢竟和市面上其它專門出版資訊書的業者相比,歐萊禮的編譯品質一直深受信賴。(提外話,這本「Spark學習手冊」依舊有錯字和翻得不到位的句子,相較來說「Deep learning深度學習必讀:Keras大神帶你用Python實作」一書的品質令人驚豔)。不過編譯的水準和內文的定位是兩回事,歐萊禮的「動物系列」(封面都是採用稀有動物的素描)主打的是以「技術行家」為目標受眾,詳細羅列了包含設定、結構、函式、監控等面向的支微末節,讓有心對某技術想追根究底的人,可以輕易地邁起步伐前進,用不著大費周章地解讀原始碼(如果是開源技術)。

個人從事大數據開發,這兩年從原本熟悉的Hadoop平台逐漸地轉換到Spark平台,在研究開發階段,大部份是憑藉著閱讀多本電腦資訊書籍來學習Spark技術(當然還有Stack Overflow)。這本「Spark學習手冊」就是在那個時空背景下,放到我的購書清單裡。坦白說,「林大貴」的「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」是真正奠定我在Spark開發上的基礎能力。而後續的「大數據(Big Data)分析與應用:使用Hadoop與Spark」以及「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」則是溫故知新地加深我對此技術的體悟與熟練度。因此我在2019年的時點來翻閱這本「Spark學習手冊」,對於前半介紹的基礎觀念已經了然於心,難免會感覺書中的亮點有限。

「Spark學習手冊」全書內容有其它書籍不曾提到的系統參數值設定方法並說明參數所帶來的影響。然而當我嘗試在實務環境中使用這些參數去調校程式時,卻沒有顯著改善程式的執行效能。(又聯想到雞肋了)。總結來說「Spark學習手冊」還是值得收藏,因為它有針對Spark平台細節的參數具體說明,可以低輕開發人員去查閱官方文件的辛勞。(當然有時候去Google一下更快)。再者它針對Spark Streaming和Spark MLlib的介紹寫得相當淺顯易懂。這兩章節是個很好的起點,讓有興趣進一步研究的讀者,在還沒細讀串流分析以及機器學習的Spark專書前,可以透過「Spark學習手冊」的內文掌握核心觀念,有助於後續的專研。

沒有留言:

張貼留言