2018年9月23日 星期日
Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
自從2014年同事J離職後,我開始接手大數據專案,機器學習的課題就始終三不五時的出現。畢竟大數據是機器學習成長的推手,也是外界眾多驚人應用的背景關鍵核心。為此也曾研究過Apache Mahout的專書,但試過幾個範例後總覺得Mahout的框架不夠簡潔,效能也不理想。加上那時候的推薦系統在應用上著重關聯規則算法,根本用不到機器學習裡典型的迴歸、分類、分群等演算法,所以也沒再多投入心力在相關技術的鑽研。
時至2018年,同事A和H開始研究起Apache Spark大數據平台,也在公司建置了Spark叢集進行機器學習的初步導入。我覺得時機剛好,推薦系統的應用已經步入成熟階段,後續可以來和同事一起研究先前未能確切理解的機器學習技術。「Python+Spark 2.0+Hadoop機器學習與數據分析實戰」,就是在這個背景下列入我的閱讀書單裡。
在開頭的章節中,先概略地提到Spark機器學習平台的相關技術,帶到書中後續要學習的各個單元。再來詳細說明如何建置一個可用來練習與實作的Hadoop平台。接著就用一連串淺顯易懂的範例練習來教導HDFS以及Map/Reduce運算的核心觀念。其中講述的內容與其它專論Hadoop的書籍相比毫不遜色,很適合想在短時間內掌握Hadoop平台原理的讀者。
中間章節開始介紹PySpark的開發工具IPython Notebook,這個工具真的讓人一用就會愛上,也是我目前最常使用的Python開發工具。另外也介紹了另一種基於Eclipse IDE的PyDev開發工具的解決方案。最後一次講齊PySpark平台上的三種執行模式與建置方法,讓讀者不用另外在網上搜尋平台建置細節。
在瞭解相關平台與工具後,中半段的內容就開始講述第一個機器學習案例,基於ALS演算法的推薦系統。再來就是一連串關於兩元分類、迴歸、多元分類的演算法介紹與範例練習,所有章節都有具體可行的執行範例也經過充分地講解說明。雖然書中缺少了分群演算法,但這本書是我目前看過最適合程式人員進入機器學習領域的入門書。不會使得工程師一頭陷入無止盡的演算法數學公式,而是讓人第一時間掌握具體機器學習具體的開發流程。從而引導出是否能有更進一步運用分類、迴歸算法到未來的專案中的可能性。
強烈推薦給每一位對機器學習有興趣也有心想動手做做看的工程師們~
訂閱:
張貼留言 (Atom)

沒有留言:
張貼留言