2019年1月14日 星期一

Hadoop+Spark大數據巨量分析與機器學習整合開發實戰


「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」一書,算是姐妹作「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」的前身。就是藉由許多實作的練習,一步步教導讀者學會使用Spark平台進行大數據分析以及機器學習預測。

Hadoop HDFS、Hadoop Map/Reduce等大數據重要觀念也一併收入到書中。不誇張地說,只要好好研習書中介紹的技術並且詳加練習,讀者將在大數據以及機器學習上打下了穩固的基礎。依時序來看以Python 語言為主的「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」才是續作,也反映出目前業界在機器學習領域中,Python儼然成為非正規的標準語言,有最多人投入研習與實作。

諷刺地是我反倒是先看完「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」之後,才再看「Hadoop+Spark大數據巨量分析與機器學習整合開發實戰」這本書。主要原因是透過PySpark開發出來的預測系統在執行效能上不甚理想。透過Python轉Py4J最後在Spark上執行中Context Switch,讓程式運算耗掉太多轉換時間,對於建置線上預測系統而言,是一大致命傷。因此只要回過頭來研究如何用Scala語言來開發Spark機器學習,畢竟Scala號稱能比PySpark快上數倍。

對於不在意採用Scala來實作機器學習的人,這本書不遜於Python的那本續作。只是因為此書出版較早,所以重點多在解說Spark RDD,而在Spark Dataframe的章節相對不足。另外開發工具也建議採用IDEA,不要使用書中介紹的Eclipse(Spark plugin)這樣就沒問題了。

沒有留言:

張貼留言