2019年3月27日 星期三

資料科學的商業運用


我認為電腦資訊的書籍略分成兩種,一是教導語言、工具、框架的學習手冊,得搭配特定版本的軟體工具來閱讀。其次的是講解資訊應用的某種觀念、想法和核心理論,而這類型的書則是歷久彌新,像白酒一般越陳越香。「資料科學的商業運用」就是屬於後者的佳作,對於有志於數據分析(或更時髦的說法...資料科學)的人來說,是絕對不可錯過的殿堂級好書。

由於「資料科學的商業運用」內文中太多值得詳記的重點,就節錄部份精華穿插在讀後心得裡。開頭作者就先解釋了資據導向決策(Data-Driven Decision-making),是以數據為基礎來進行決策的一種思維。想要達成運用資料科學來增進商業價值之前,經營者必須先捨棄官大學問大的惡性,建立客觀、數字化的決策流程,按步就班的操作與修正,才有機會獲取數據推動營運的終極目標。

而書中也提及了資料採礦的九種典型任務,包含了:
1.分類(classification)
2.回歸(regression)
3.相似性比對(similarity matching)
4.聚類(clustering)
5.共生分群(co-occurrence grouping)
6.剖析/行為描述(behavior description)
7.連結預測(link prediction)
8.資料精簡(data reduction)
9.因果建模(causal modeling)
上述任務基本上就涵蓋了市面上常見的分析類型。

資料的「漏洞」指的是做為預測目標變數的相關變數值,在進行決策的當下是不可得的。例如預測誰是高端客戶的模型,如果採用的是消費者最後的結帳金額當做輸入變數(特徵),那就是漏洞。這部份在設計模型特徵時是潛藏的陷阱,把要預測的答案當成輸入值餵給模型,會得到超乎想像的準確度,但模型卻是不實用的。

這兩年來隨著人工智慧的火熱,機器學習、深度學習等名詞不斷地出現在報章媒體中,其實就技術層面來檢視,知識發掘與資料採礦(Knowledge Discovery and Data Mining)和機器學習在技術和演算法是共通的。但兩者還是有些許的差異,機器學習範圍還包含了機器人與視覺辨識等應用,而資料採礦則著重在將數據分析的成果應用在真實世界中,因此商業應用是歸屬在資料採礦。

在學習不同類型的建模演算法時,常會看到「超平面」(hyperplane)這個很高科技的字眼,其實它只是形容在N維空間裡分隔不同群組的的N-1維平面。而在二維的平面空間中,它就呈現為我們所熟悉的垂直/水平線,而以「決策線」(decision line)稱呼。

資料配適/資料擬合(fit),是機器學習建模中關鍵的步驟。參數學習(parameter learning)/參數化建模(parameter modeling)指的是先決定某些尚未確定數值參數的模型結構(ex: 線性模型 f(x) = a * x1 + b * x2 + c * x3 + ...),然後由數據採礦,依一組特定訓練資料集來算出最佳參數值(a, b, c...)。邏輯迴歸、支援向量機和線性迴歸都是這種線性建模技術,唯一差別是「目標函數」,最後就產生了完全不同的模型。

擬合是預測模式產生的原因,但過擬(overfitting)卻是模型喪失普遍化的成因。精確度和過擬是一體兩面的決則,利用「配適圖」的分析,可以正確找到最高準確度與最低過擬的「甜蜜點」。

用於檢視二元/多元分類模型結果的「混淆矩陣」,再轉換成「機率矩陣」後乘上另外定義出的「成本效益矩陣」,即可得算出總預期獲利值。預期值的概念對於預測模型的導入與否,提供了一種精確評估數字,不再落入一個模型自各表述的困境。

204頁的明確性公式居然寫錯!太令人失望了(正確寫法是: 明確性 = TP / (TP + FN) ),不過錯的太離譜馬上就查出來。

利用「獲利曲線」可以在目標市場行銷的實務,清楚描繪出適當的分類門檻,找出能獲取最大預期利益的最低正分類機率值(應該提供優惠的目標客戶)。當無法提供穩定的成本效益矩陣來計算預期值,獲利曲線也就無法計算,因此必須利用ROC圖/ROC曲線來評估模型好壞。書中循序漸近地說明ROC空間是什麼,分類器的門檻又如何在ROC空間中形成了ROC曲線。

書中值得深入吸收理解的資訊量實在太多,無法一一細數。不誇張地說,我認為能熟讀並活用這本「資料科學的商業運用」的讀者,足以擔任數據分析/資料科學領域的顧問了。

沒有留言:

張貼留言