2024年11月23日 星期六

刀背藏身:徐皓峰武俠短篇集

 

如果你覺得王家衛執導的一代宗師是寫真派武俠電影的代表作,那你肯定要一睹徐皓峰編導的硬派武俠電影師父。裡面沒有成龍打諢插科的笑料,也沒有徐克電影飛簷走壁的套招武打。有的是有血有肉的角色刻畫,以及符合物理學的比試過招,和民初的時代背景鋪陳。

刀背藏身除了收錄師父的原著外,也包含其它已經被拍成電影作品的倭寇的蹤跡民國刺客柳白猿,還有短篇的國士刀背藏身。如同徐皓峰在書中自述,他在執筆撰寫這些小說時,是抱持著它們未來都能被改編成電影劇本的期許。所以不論在角色的安排、對話的台詞以及劇情的節奏,都是限制在可以用兩個小時的影片長度說故事的格局。而且在一連串看過這五個短篇集後,也可以發現文本裡一定會穿插男女歡愛橋段這種增進電影看頭的調味料。

書中結尾徐皓峰講評中國電影產業困境的內容,反而變成本書的另一個亮點。他觀察到好萊塢影視產業的存在,是為了服務在工商社會中已經智竭力乏的普羅大眾得以娛樂。劇本務求邏輯清楚,台詞講究淺顯直白,更有甚者,會安排在畫面中安排解說員的演員,自言自語地獨白說給觀眾聽。而這卻不是電影這門藝術最初、最值得追求的形式,一切都是商業掛帥的緣故。

因此徐皓峰編寫的故事不見得符合邏輯脈絡,角色對話有時也挺曖昧不清。此如他所說,電影總是呈現著人會怎麼活的一種觀點與角度,而人與人相處時,說話總是留三分,言外之意說的才是真實人生。處處留白和可自行腦補的開放式結局,是他為腦力健的觀眾保留的影視佳肴,老派卻充滿浪漫。

2024年11月6日 星期三

科技巨頭的演算法大揭祕:資料科學家必讀的資料科學與機器學習實戰筆記

 



這本科技巨頭的演算法大揭祕基本上是幫讀者整理Netflix、Spotify、Facebook、Airbnb、Uber等知名企業,揭露它們在研發自家搜尋與推薦系統的過程中,有採用的設計與資訊技術。這也是本向大眾展示大數據機器學習如何落地應用,產生實質商業價值的科普書。對於這些走在資通科技最前沿的大型企業,只要零點幾%的優化,對公司營運帶來的報酬可能就是數十萬美金起跳。因此天馬行空地翻轉手上的巨量資料,不停嘗試導入各種ML模型用來最佳化企業營運的各個層面,已變成它們工程團隊的DNA。他們不吝嗇透過網路文章、研究報告和論文,將九牛一毛的成果,挑選可公開於眾的技術片段,傳播到大眾面前,也藉此宣傳自家企業的技術優勢。多虧此書作者徐歆閔的消化吸收,替讀者將晦澀難懂的原文資料書寫成白話簡潔的科普文章,讓我們可以輕易地一窺各大山頭在數據應用的進展與巧思。

對於從事大數據與推薦系統開發的我而言,這本書是絕對值得收藏精讀的寶典。不過如果以實用角度來看,打個比方,它就像跟你介紹少林寺有七十二絕技、華山派有獨孤九劍、武當派有太極拳。而這些技藝都是知易行難,要花苦功練才能有所成,因此看完書懂些皮毛,讀者依舊學不會/做不出來。所以本書和多數教導實作的電腦書定位截然不同,科技巨頭的演算法大揭祕像是一本點到為止的武林秘笈。它開擴讀者的視野,點出在數據工程與推薦系統開發上,還有那些技能樹上的技術點,可以用心突破或加強的。像是向量運算分類模型算是數據處理的入門招式,但在雜複的應用情境中依舊是不可或缺的核心項目。

個人認為企業的大數據應用發展過程可約略分成三階段。初步是開始收集、運用巨量資料,懂得利用大數據運算結果來優化資訊系統,擁有數據導向思維。接著是擁抱機器學習,打造以數據養模型的組織文化。充分將迴歸、分群、分類等各種AI模型導入到資訊系統的各個層面,達成無處不學習無處不優化的境地。最終的階段是以機器學習帶動大數據,靈活運用ML技術,甚至用來產生不存在的假資料,來泯除大數據應用的痛點(沒資料),此時會是見山不是山,大數據與機器學習再也分不清彼此。想當然而,這些科技巨頭早已達第三階段。

在電商平台開發推薦系統,某種程度上不如Netflix、Spotify這些訂閱制影音內容平台般單純。因為對於內容平台而言,只要推薦的內容是使用者真正感興趣的,一定能產生正向回饋,因為在月費制的前題下,消費任一內容對使用者來說是固定成本。電商平台則不然,商品售價、活動優惠、庫存滿足度甚至是競業的動態,都足以影響使用者對推薦內容的觀感與反應。這也是為何在推薦系統的發展大事件中,近來話語權最高的是影音內容平台Netflix(舉辨公開競賽),而不是電商龍頭Amazon,因為花費鉅資投入打造/購買一套推薦系統,對兩家公司在未來營收的影響上,不會是同一個數量級。對電商來說,一個完善的供應鏈數據平台,其重要性會遠大於擁有許多推薦模型的推薦系統。不論是數據工程、推薦系統甚至是機器學習,這些都是大數據工程師有機會施展拳腳的應用領域。它山之石可以攻錯,科技巨頭的演算法大揭祕便是扮演這樣的角色。