2019年6月15日 星期六

統計學,最強的商業武器


作者「西內啟」在書中直言不諱地聲稱「大數據」熱潮背後,有著IT產業行銷炒作的商業動機。他指出單以傳統統計學的觀念,足以帶領企業達成「數據導向管理」的轉型,而數據時代的重點在於思維不在工具。接著以一則19世紀英國倫敦霍亂大流行時的流行病學事件,讓讀者對統計學的威力產生興趣。

我的後見之明認為「統計學,最強的商業武器」這本在2014年出版的統計科普著作,確實無法預料在五年後的今天,大數據經由資料探礦(機器學習)的推波助瀾,判隨著深度學習的熱帶性低氣壓,形成了史無前例的人工智慧風暴席捲全球。

在「統計學,最強的商業武器」書中,西內啟旨向讀者說明統計學中的核心觀念。他認為統計學是所有學問的基礎,在以數據和統計分析為基礎的「實證科學」中,實證科學主導了現代醫學的發展,隨後也被人文、教育與法律等領域採用。

統計分析最核心的不外乎「誤差」和「因果關係」兩項重點。西內啟批評當今許多商業顧問製作的商業分析報告,頂多只做到19世紀以前數據分析的水準,簡單講都只是在「彙總數字」,然後用精美的圖表呈現。沒有標示誤差值的統計數字,本質上根本無法做為推論母群體的依據。世界上也斥充著未考慮因果關係的分析結論,錯把「相關性」當成「因果關係」。

統計學之父「羅納德.費雪」所提出「隨機對照實驗」,是實證科學最重要的必殺技,其在IT業界則有另一個眾所皆知的稱呼「A/B測試」。很多需要科學方法來假設與實驗的命題,在種種限制下是無法做到控制單一自變數的實驗設計。而「A/B測試」便是在「只要讓其它條件隨機化,便能讓兩個比較的群組條件達到相同狀態」的假設前題下,藉由「隨機化」的分群做法(分兩群),將其它條件自變數散佈於大量的取樣個體中,製造出兩群樣本中唯一顯著的差異就僅剩下選定的操作自變數,因而做到實證科學需要的條件限制。

隨機化雖然好用,但也不是萬能的魔法石,西內啟指出它有三項障礙:
(1)「現實」。做不到隨機化這個動作:執行的成本太高,無法產生足夠的事件(ex:登陸月球)
(2)「道德」。隨機化的動作不被允許:法律上、道德上不被容許(ex:隨機投藥給病人)
(3)「情感」。執行上沒問題,但可能帶來龐大損失(ex:動態訂價造成消費者反感)

在無法採用隨機對照實驗的情況下,「病例對照研究法」是目前廣被採用的替代方案。利用大量數據進行分層分析,獲得近乎隨機化抽樣的兩個群組,並在群組內做對照分析。固然在「理論上」只要不是隨機對照實驗就不算是在類似群體間做比較,但相關研究也證實了「病例對照研究法」產生的結論其實和隨機對照實驗結果差不多。

中間花了許多章節說明統計學中用於「預測」的「回歸分析」的觀念。西內啟以一個簡單的例子向讀者解釋「回歸分析就是從一方資料預測另一方資料的方程式」。回歸有「回歸平均」的特性,在數字夠多的情況下,單一異常值將會回歸平均值。即使是回歸公式中的回歸係數也帶有變動性,要能正確的運用回歸方程式,得額外考慮回歸係數的信賴區間、P值。這裡有個相當重要的觀點,即便已經採用了隨機化的A/B測試來進行數據分析,
最終在檢驗結果數據時,也應該再次確認P值。

西內啟在書提出了一個重要又簡便的表格,「廣義的回歸分析」分類表:
透過這表格,可以讓不熟習回歸分析實作的分析者,能快速找到正確的統計分析方法來進行數據顯著性的驗證。

具體來說,回歸分析在數據分析工具中,因為其回歸係數的易解釋性,讓分析者在對利害關係者的溝通時較為便利,奠定了它一支獨秀的關鍵角色。能用在解決分層分析會遇到的數據量不足與組合複雜化問題的「多元回歸」,以及預測值為二元的「邏輯回歸」,則都是回歸分析家族的一份子。

最後的章節,西內啟介紹了六大主流的統計學派:
(1)目的在於掌握實際狀況的社會調查法
(2)目的在於找出原因的流行病學及生物統計學
(3)目的在於測量抽象概念的心理統計學
(4)目的在於機械式分類的資料探礦
(5)目的在於處理自然語言的文字探勘
(6)著重在推論的計量經濟學

各學派對機率觀念上的對立,主要分成「貝葉斯派」和「頻率派」,其中社會調查、流行病學、生物統計學及心理統計學領域,許些的誤差足以造成龐大的社會成本,為此追求絕對正確的數據結論,採用頻率論者多。而資料探礦、文字探勘和計量經濟學,則是採用帶有推理性質的貝葉斯派。

因為工作緣故,我前些時日在機器學習上投入不少心力研究,回過頭來閱讀這本傳統統計學科普書籍,從另一個觀點來認識數據分析,倒也是別有趣味。這本書非常適合從事數據分析、策略規劃的知識工作者參閱,用來奠定基礎的統計分析思維。

沒有留言:

張貼留言