這本科技巨頭的演算法大揭祕基本上是幫讀者整理Netflix、Spotify、Facebook、Airbnb、Uber等知名企業,揭露它們在研發自家搜尋與推薦系統的過程中,有採用的設計與資訊技術。這也是本向大眾展示大數據與機器學習如何落地應用,產生實質商業價值的科普書。對於這些走在資通科技最前沿的大型企業,只要零點幾%的優化,對公司營運帶來的報酬可能就是數十萬美金起跳。因此天馬行空地翻轉手上的巨量資料,不停嘗試導入各種ML模型用來最佳化企業營運的各個層面,已變成它們工程團隊的DNA。他們不吝嗇透過網路文章、研究報告和論文,將九牛一毛的成果,挑選可公開於眾的技術片段,傳播到大眾面前,也藉此宣傳自家企業的技術優勢。多虧此書作者徐歆閔的消化吸收,替讀者將晦澀難懂的原文資料書寫成白話簡潔的科普文章,讓我們可以輕易地一窺各大山頭在數據應用的進展與巧思。
對於從事大數據與推薦系統開發的我而言,這本書是絕對值得收藏精讀的寶典。不過如果以實用角度來看,打個比方,它就像跟你介紹少林寺有七十二絕技、華山派有獨孤九劍、武當派有太極拳。而這些技藝都是知易行難,要花苦功練才能有所成,因此看完書懂些皮毛,讀者依舊學不會/做不出來。所以本書和多數教導實作的電腦書定位截然不同,科技巨頭的演算法大揭祕像是一本點到為止的武林秘笈。它開擴讀者的視野,點出在數據工程與推薦系統開發上,還有那些技能樹上的技術點,可以用心突破或加強的。像是向量運算、分類模型算是數據處理的入門招式,但在雜複的應用情境中依舊是不可或缺的核心項目。
個人認為企業的大數據應用發展過程可約略分成三階段。初步是開始收集、運用巨量資料,懂得利用大數據運算結果來優化資訊系統,擁有數據導向思維。接著是擁抱機器學習,打造以數據養模型的組織文化。充分將迴歸、分群、分類等各種AI模型導入到資訊系統的各個層面,達成無處不學習無處不優化的境地。最終的階段是以機器學習帶動大數據,靈活運用ML技術,甚至用來產生不存在的假資料,來泯除大數據應用的痛點(沒資料),此時會是見山不是山,大數據與機器學習再也分不清彼此。想當然而,這些科技巨頭早已達第三階段。
在電商平台開發推薦系統,某種程度上不如Netflix、Spotify這些訂閱制影音內容平台般單純。因為對於內容平台而言,只要推薦的內容是使用者真正感興趣的,一定能產生正向回饋,因為在月費制的前題下,消費任一內容對使用者來說是固定成本。電商平台則不然,商品售價、活動優惠、庫存滿足度甚至是競業的動態,都足以影響使用者對推薦內容的觀感與反應。這也是為何在推薦系統的發展大事件中,近來話語權最高的是影音內容平台Netflix(舉辨公開競賽),而不是電商龍頭Amazon,因為花費鉅資投入打造/購買一套推薦系統,對兩家公司在未來營收的影響上,不會是同一個數量級。對電商來說,一個完善的供應鏈數據平台,其重要性會遠大於擁有許多推薦模型的推薦系統。不論是數據工程、推薦系統甚至是機器學習,這些都是大數據工程師有機會施展拳腳的應用領域。它山之石可以攻錯,科技巨頭的演算法大揭祕便是扮演這樣的角色。

沒有留言:
張貼留言