2024年1月30日 星期二

大數據(新版):「數位革命」之後,「資料革命」登場: 巨量資料掀起生活、工作和思考方式的全面革新

 

從2015年開始接觸Hadoop平台以來,一直專職在大數據應用和電商推薦系統。有趣的是,一路上我一直沒看過這本幾乎被視為巨量資料聖經的大數據,理由挺傲嬌的,那時心想「如果看了這本書,想法說不定會被引導,而走不出自己的路…」。而為什麼在2024年的今天會動心起念想看這本大數據?原因是經過這些年在大數據的專研與實務經驗,中間遇到許多困難與挑戰,累積自身對這個資訊應用領域的觀點與看法。這時再回過頭來吸收業界先進的思維與方針,並不會一味的照單全收,更能淬鍊出書中的真知灼見,滿載而歸。

不知你有沒有發現,在新聞報導裡只要有用到數據分析的情況,一律要說是大數據分析。然而怎麼樣的資料才能叫大數據?GB?TB?PB?用單純的資料容量大小適合嗎?答案當然是NO。樣本=母體,在巨量資料的三大特質中,這是最具體能區分傳統的統計分析巨量資料分析的差異。書中明確的指出,在過去,資料蒐集、儲存、處理成本相對高昂,因此抽樣是一門相當重要的學問,能有效地將分析成本壓低到最小,讓數據分析可以充分應用在各個社會科學商業領域。以抽象的理論為起點,針對假說進行取樣蒐集資料,最後再針對資料進行相關性分析,是傳統統計學門的標準作業流程。但在資料爆炸的網路時代,又逢各種開源的大數據工具蓬勃發展,以母體資料來進行統計分析不再是天方夜談的空想。雖然資料科學家的專業知識,被認為是由統計分析數據工程資料視覺化三個領域交集而成。但是在實務操作時,統計分析這塊著墨的深度,尚不如其它兩者,大約有基礎的統計能力即可應付一般需求。如同作者而言,大數據分析十之八九不會用到抽樣技術。

而在巨量資料喊得震天價響的幾年後,多數企業卻發現大數據對業務的影響並不顯著。首先,不是每家企業都是直接面對消費者,而能獲取到巨量資料,因此頂多只能運用第二手資料/開放資料當做起點。再者,巨量資料先天的雜亂(或說不精確)特質,如果想廣泛運用,得打破企業運營對數字吹毛求疵的慣性,更讓經營決策者裹足不前、敬而遠之。所以在企業界,看得到的大數據成功案例,多是更優秀的機制、工具等屬於戰術成果,很少看到企業以巨量資料分析當做訂定戰略方向的維運核心指標。即便如此,張開雙手擁抱資料數量比資料品質更重要的精神,成就出精確的谷歌翻譯、亞馬遜商品推薦模型,這些案例都是採用簡單的模型加疊上大數據,卻能打敗複雜但有著量少質精資料的對手。

相關性不等於因果關係反智一書裡耳提面命的重要觀念。然而大數據運用卻是要你歌頌相關性,別在拘泥在因果關係。像是在推薦系統中效果最顯著的購物籃分析和谷歌的關鍵字預測流感趨勢等例子,都是利用正是如此,而非苦思為何如此。對理論假說進行實驗設計,以控制組和對照組的資料進行因果關係分析,是科學知識賴以累積的碁石。但大數據的分析思維並不追求這種費時秏工的科學精神,它利用低成本的相關性分析,應用到實驗成本昂貴,卻想追求效益最大化的社會科學領域(例如商業、政策),確實也常獲得超乎預期的成果。但請別誤會,相關分析因果分析絕不是互斥對立的兩極,將相關分析用來當做可操作變數選項的過濾器,會有效減少投入實驗設計的變數項目。大數據運用裡的預測分析則是用更積極的態度來評估相關性,利用高度相關性的變數做為想預知事項的有效指標,例如出現異常的刷卡頻率就懷疑是盜刷事件。另外,舉個實務上的經驗,想用大數據來找出公司流失客戶的原因是很難的,因為巨量數據分析是找出相關性,並無法找出真正的因果關係。對於此命題,想找到原因還是得用問卷調查或實驗設計等傳統行銷科學方法才能找到答案。

除了上述說明大數據三項特質的豐富內容外,書中也進一步對資料的數位化資料化間的差異提出說明。也因為數位資料是經濟學者所謂的非競爭商品(某人的使用不妨礙他人使用),所以針對同一份巨量資料的無限次數運用是可行的。一但出現新的運用觀點,既可對舊有的資料進行再次利用。除了運用手上的巨量資料外,也可和其它外部資料重新組合、在資料蒐集的過程中額外取得其它面向的資料(例如谷歌街景車同時蒐集基地台訊號),都是對巨量資料增值的辨法。讀完大數據會深刻領悟,巨量資料對資訊領域而言,如同取之不盡的太陽能,光照著數據分析實務的現在與未來。

2024年1月16日 星期二

[觀點]如何量化人的美貌/帥氣?

相信沒人會反對外貌對人際關係的重要性。在現實社會中,天生長的俊俏、美麗的人兒,就像是一出生就拿了一手好牌,但具體來說,怎麼樣的長相算是美人、帥哥,是基礎上大眾有共識,細節沒個準。

今早倒是想到一個量化人們外表的簡易作法,特別方便用來評比不同人之間的美貌度,方法如下:

1、想像對方的長相,大概約在多少人裡面會遇到一位。例如,3位裡面可以遇到1位長的類似的,那就是1/3。班花、班草,以50人為一班的情況下就是1/50。同理,年級校花大概就是1/1000(抓一年級有20班)。

2、因為分數比較難使用,值接把分母當成數值來看,結果就像戰鬥力一樣的數字出現了!班花是50、校花是1000,足足強了20倍。

3、可以延伸到演藝圈和其它對外貌會品頭論足的領域裡。像是阿湯哥,全地球只有一位,所以是78億!XDD


2024年1月13日 星期六

中年的意義:一個生物學家的觀點


在書店裡以老年人與嬰幼兒為主題,有著五花八門的書目,但若聚焦在中年人時,主題常環繞在銅臭味重的職場生存、商業經營。這也難怪,中年時期,多半是家庭成員中的經濟支柱,在上有老下有小的壓力中掙扎,即便有閒瑕時間,也多是用來追求更高的經濟產出,才能確保家人未來的生活無慮。這種燃燒自己,照亮家人的行為模式,完全呼應中年的意義作者,用生物學觀點解析出來的中年的存在價值。這論點可以讓身為歐吉桑、歐巴桑的讀者寬心許多,體悟原來中年期不是那麼的一無是處。

初章作者就幫讀者打破人類這物種壽命只有到四十幾歲的迷思。十八世紀和更早前,人類平均餘命不到四十的主因,源自於超高的新生兒死亡率拉低了平均值。目前就考古證據發現,在史前遊獵時代的人類,多數都可以活到六十幾歲,所以中年人是經過長久演化形成的生命階段,自有其獨特的價值。甚至可以說,人類社群可以這麼蓬勃發展,中年人的貢獻功不可沒。擁有不成比例的超大大腦,人類這個物種演化出極耗費資源的繁衍形式,父母對後代的撫養都是長達十幾年,其中也常見借助血親提供人力、物力一起養育同源後代。這種高度社會化會相互扶持的物種,便演化出能供給大量資源給社群運用的特殊群體「中年人」,如同工蟻般為後代發光發熱。

生物學的研究發現,在脫離青春期後,人體的生理特徵會一直持續的成長,而非一般認為的走向老化。這種罕為人知的成長,驅使中年人的身心樣態有別其它生命階段,好與壞都有。最顯著的是,中年人容易發胖。主因在中年期人類的新陳代謝系統,自行進化成可以極佳地轉化吸收食物中的能量,避免浪費有限的資源。這正是演化論帶來人類的禮物,讓工蟻能少吃多做,把珍貴的糧食用來養育社群裡的後代,但衣食無缺的近現代,一切全都走調了,這個太勤奮的代謝系統是造就中年人肥胖的原兇(即便吃的一樣,也會越來越胖)。另一項生理成長是反應在中年人的大腦,相較於青年時期,中年人逐漸接受灰色地帶的思維模式,這絕非鄉愿,而是大腦對複雜議題的評估和解讀更加全面且深思熟慮,能用更宏觀的角度看待手上的課題。中年時期人開始會出現傳遞想法的衝動,這源自於人類這物種的生存優勢仰賴前人累積的知識與技術,長期演化後造就中年人性好嘮叨的習慣,卻能保障社群間能代代傳承得來不易的經驗與文化。

書中針對中年人特有的時間飛逝感、中年危機的真實性等許多議題都有相關的討論。雖然不少主題最後都是懸而未決沒有一錘定音的答案,但本書確實彙整了大多數中年人常被提及的身心議題。不論讀者是否已踏入中年、遙望中年,如果你對這個必經的生命階段想要多一點瞭解,中年的意義不會讓你失望。