從2015年開始接觸Hadoop平台以來,一直專職在大數據應用和電商推薦系統。有趣的是,一路上我一直沒看過這本幾乎被視為巨量資料聖經的大數據,理由挺傲嬌的,那時心想「如果看了這本書,想法說不定會被引導,而走不出自己的路…」。而為什麼在2024年的今天會動心起念想看這本大數據?原因是經過這些年在大數據的專研與實務經驗,中間遇到許多困難與挑戰,累積自身對這個資訊應用領域的觀點與看法。這時再回過頭來吸收業界先進的思維與方針,並不會一味的照單全收,更能淬鍊出書中的真知灼見,滿載而歸。
不知你有沒有發現,在新聞報導裡只要有用到數據分析的情況,一律要說是大數據分析。然而怎麼樣的資料才能叫大數據?GB?TB?PB?用單純的資料容量大小適合嗎?答案當然是NO。樣本=母體,在巨量資料的三大特質中,這是最具體能區分傳統的統計分析和巨量資料分析的差異。書中明確的指出,在過去,資料蒐集、儲存、處理成本相對高昂,因此抽樣是一門相當重要的學問,能有效地將分析成本壓低到最小,讓數據分析可以充分應用在各個社會科學和商業領域。以抽象的理論為起點,針對假說進行取樣蒐集資料,最後再針對資料進行相關性分析,是傳統統計學門的標準作業流程。但在資料爆炸的網路時代,又逢各種開源的大數據工具蓬勃發展,以母體資料來進行統計分析不再是天方夜談的空想。雖然資料科學家的專業知識,被認為是由統計分析、數據工程和資料視覺化三個領域交集而成。但是在實務操作時,統計分析這塊著墨的深度,尚不如其它兩者,大約有基礎的統計能力即可應付一般需求。如同作者而言,大數據分析十之八九不會用到抽樣技術。
而在巨量資料喊得震天價響的幾年後,多數企業卻發現大數據對業務的影響並不顯著。首先,不是每家企業都是直接面對消費者,而能獲取到巨量資料,因此頂多只能運用第二手資料/開放資料當做起點。再者,巨量資料先天的雜亂(或說不精確)特質,如果想廣泛運用,得打破企業運營對數字吹毛求疵的慣性,更讓經營決策者裹足不前、敬而遠之。所以在企業界,看得到的大數據成功案例,多是更優秀的機制、工具等屬於戰術成果,很少看到企業以巨量資料分析當做訂定戰略方向的維運核心指標。即便如此,張開雙手擁抱資料數量比資料品質更重要的精神,成就出精確的谷歌翻譯、亞馬遜商品推薦模型,這些案例都是採用簡單的模型加疊上大數據,卻能打敗複雜但有著量少質精資料的對手。
相關性不等於因果關係是反智一書裡耳提面命的重要觀念。然而大數據運用卻是要你歌頌相關性,別在拘泥在因果關係。像是在推薦系統中效果最顯著的購物籃分析和谷歌的關鍵字預測流感趨勢等例子,都是利用正是如此,而非苦思為何如此。對理論假說進行實驗設計,以控制組和對照組的資料進行因果關係分析,是科學知識賴以累積的碁石。但大數據的分析思維並不追求這種費時秏工的科學精神,它利用低成本的相關性分析,應用到實驗成本昂貴,卻想追求效益最大化的社會科學領域(例如商業、政策),確實也常獲得超乎預期的成果。但請別誤會,相關分析和因果分析絕不是互斥對立的兩極,將相關分析用來當做可操作變數選項的過濾器,會有效減少投入實驗設計的變數項目。大數據運用裡的預測分析則是用更積極的態度來評估相關性,利用高度相關性的變數做為想預知事項的有效指標,例如出現異常的刷卡頻率就懷疑是盜刷事件。另外,舉個實務上的經驗,想用大數據來找出公司流失客戶的原因是很難的,因為巨量數據分析是找出相關性,並無法找出真正的因果關係。對於此命題,想找到原因還是得用問卷調查或實驗設計等傳統行銷科學方法才能找到答案。
除了上述說明大數據三項特質的豐富內容外,書中也進一步對資料的數位化和資料化間的差異提出說明。也因為數位資料是經濟學者所謂的非競爭商品(某人的使用不妨礙他人使用),所以針對同一份巨量資料的無限次數運用是可行的。一但出現新的運用觀點,既可對舊有的資料進行再次利用。除了運用手上的巨量資料外,也可和其它外部資料重新組合、在資料蒐集的過程中額外取得其它面向的資料(例如谷歌街景車同時蒐集基地台訊號),都是對巨量資料增值的辨法。讀完大數據會深刻領悟,巨量資料對資訊領域而言,如同取之不盡的太陽能,光照著數據分析實務的現在與未來。

沒有留言:
張貼留言