2019年6月30日 星期日

TensorFlow+Keras深度學習人工智慧實務應用


如同我同事說的「看書的時間點不分早晚,當你閱讀的當下就是最好的Timing」。這本2017年出版的「TensorFlow+Keras深度學習人工智慧實務應用」對我而言,眼下就是最好的相逢。

面對以深度學習為主所掀起的第三次人工智慧熱潮,想當然耳是身處大數據應用第一線工程師必修的資訊技能。早先經由林大貴的姐妹作「Python+Spark 2.0+Hadoop機器學習與大數據分析實戰」學習到了傳統機器學習的功夫,在此基礎上再更一步研讀「TensorFlow+Keras深度學習人工智慧實務應用」一書,循序漸進地朝深度學習的領域探索,在學習進程上的安排是恰如其份。

就如封面所言,TensorFlow是實踐深度學習的低階語言,不適合初學者入門。而建基在TensorFlow之上的Keras函式庫,相當巧妙地將重複性的程式碼包裝起來,提供了便利、直觀的建模函式,讓使用者可以快速地運用類神經網路模型來實作實務問題,不用卡在枝微末節的代碼中。本書就是先從Keras範例開始介紹,等讀者對深度學習模型有一定經驗後,再用TensorFlow解說一次。林大貴的這種安排相當貼心,藉由同一範例執行兩種不同語法來重複練習,也真的能讓書中想傳播的知識確切地印在讀者們腦海中。

章節的範例包含了:手寫數字辨識、照片物體辨識(圖像分類問題),鐵達尼號旅客生存機率(資料分類問題)以及IMDB影評情緒分析(自然語言處理分類問題)。都是常見但精典的機器學習課題,也都有轉化為實務的專案雛形的價值。利用深度學習的MLP(多層感知器)、CNN(卷積神經網路)、RNN(遞歸神經網路)與LSTM(長短期記憶)等深度學習模型,讓人工智慧在資訊科技運用上突破了先前傳統演算法(單純貝氏、決策樹...等)無法跨越的瓶頸,也勢必成為資訊科技從業人員口袋中應配備的應用工具。

書中最後一章是介紹如何安裝Nvidia的GPU顯示卡來加快TensorFlow的運算速度,可惜我沒想為了練習書中範例就去買張顯卡來實踐內容,就只能望文興嘆就字面上體驗GPU的強大威力。

2019年6月29日 星期六

日本情感研究權威的人工智慧秒懂攻略


面對自己不理解的新事物時,不是出自恐懼而提前全盤否定,就是過於樂觀一味照單全收。在人工智慧崛起的時代,知識工作者如何理解、接納AI,更甚者能與AI攜手合作開創新局,一切都得源自於從正確地學習AI的優劣勢與相關的基礎觀念。而「日本情感研究權威的人工智慧秒懂攻略」就是讓讀者開始接近AI的一本佳作。

作者「坂本真樹」(女生)是日本人工智慧研究的專家,本書是她獲日本出版社之邀,為一般大眾專文撰寫的科普內容。內容從歷史上的三次AI熱潮談起(由深度學習帶起的今日,是第三次),又將人工智慧確切地定義分級:
第一級:相當於程式自動化的控制系統(搭載AI的家電產品、簡單邏輯推論)
第二級:可處理多重輸入對應複雜輸出的電腦系統(掃地機器人、資料庫比對、知識推論演算法)
第三級:以資料為基礎,為各種輸入與輸出建立關聯性(搜尋引擎、機器學習)
第四級:能在特定領域中發揮甚至能勝過人類(自動駕駛、特化型人工智慧)
第五級:不限定領域在各方法都能勝過人類(天網、強人工智慧)
如此將AI分級的見解,在其它書籍中很少見,卻是非常直觀、清楚的AI辨識標準。

後續重點在解說人工智慧擅長和不擅長的項目是什麼,解述的內容都非常淺顯易懂,即使不是擁有資訊背景的讀者們也能輕易地閱讀。第三章有關傳統的「機器學習」以及最近熱門的「深度學習」介紹,就需要更用心理解的論述內文,特別是針對深度學習的「感知器」、「誤差反向傳播法」等術語,對第一次接觸的人來說可能會有點消化不良,但中間穿插深度學習如何讓圖像識別系統自動尋找特徵量的描述,以及最後章節介紹的各項AI應用,都清楚地讓讀者體會Deep Learning帶來的第三次AI熱潮,是貨真價實地改變了全世界。

隨著雲端平台和開源工具的蓬勃發展,可預期的是AI技術門檻會不斷地下降。不論在企業或個人層面,能掌握人工智慧而取其所長、避其所害的關鍵,相信就是抱持著積極進取的態度與求知若渴的初心,才能成事。

2019年6月15日 星期六

統計學,最強的商業武器


作者「西內啟」在書中直言不諱地聲稱「大數據」熱潮背後,有著IT產業行銷炒作的商業動機。他指出單以傳統統計學的觀念,足以帶領企業達成「數據導向管理」的轉型,而數據時代的重點在於思維不在工具。接著以一則19世紀英國倫敦霍亂大流行時的流行病學事件,讓讀者對統計學的威力產生興趣。

我的後見之明認為「統計學,最強的商業武器」這本在2014年出版的統計科普著作,確實無法預料在五年後的今天,大數據經由資料探礦(機器學習)的推波助瀾,判隨著深度學習的熱帶性低氣壓,形成了史無前例的人工智慧風暴席捲全球。

在「統計學,最強的商業武器」書中,西內啟旨向讀者說明統計學中的核心觀念。他認為統計學是所有學問的基礎,在以數據和統計分析為基礎的「實證科學」中,實證科學主導了現代醫學的發展,隨後也被人文、教育與法律等領域採用。

統計分析最核心的不外乎「誤差」和「因果關係」兩項重點。西內啟批評當今許多商業顧問製作的商業分析報告,頂多只做到19世紀以前數據分析的水準,簡單講都只是在「彙總數字」,然後用精美的圖表呈現。沒有標示誤差值的統計數字,本質上根本無法做為推論母群體的依據。世界上也斥充著未考慮因果關係的分析結論,錯把「相關性」當成「因果關係」。

統計學之父「羅納德.費雪」所提出「隨機對照實驗」,是實證科學最重要的必殺技,其在IT業界則有另一個眾所皆知的稱呼「A/B測試」。很多需要科學方法來假設與實驗的命題,在種種限制下是無法做到控制單一自變數的實驗設計。而「A/B測試」便是在「只要讓其它條件隨機化,便能讓兩個比較的群組條件達到相同狀態」的假設前題下,藉由「隨機化」的分群做法(分兩群),將其它條件自變數散佈於大量的取樣個體中,製造出兩群樣本中唯一顯著的差異就僅剩下選定的操作自變數,因而做到實證科學需要的條件限制。

隨機化雖然好用,但也不是萬能的魔法石,西內啟指出它有三項障礙:
(1)「現實」。做不到隨機化這個動作:執行的成本太高,無法產生足夠的事件(ex:登陸月球)
(2)「道德」。隨機化的動作不被允許:法律上、道德上不被容許(ex:隨機投藥給病人)
(3)「情感」。執行上沒問題,但可能帶來龐大損失(ex:動態訂價造成消費者反感)

在無法採用隨機對照實驗的情況下,「病例對照研究法」是目前廣被採用的替代方案。利用大量數據進行分層分析,獲得近乎隨機化抽樣的兩個群組,並在群組內做對照分析。固然在「理論上」只要不是隨機對照實驗就不算是在類似群體間做比較,但相關研究也證實了「病例對照研究法」產生的結論其實和隨機對照實驗結果差不多。

中間花了許多章節說明統計學中用於「預測」的「回歸分析」的觀念。西內啟以一個簡單的例子向讀者解釋「回歸分析就是從一方資料預測另一方資料的方程式」。回歸有「回歸平均」的特性,在數字夠多的情況下,單一異常值將會回歸平均值。即使是回歸公式中的回歸係數也帶有變動性,要能正確的運用回歸方程式,得額外考慮回歸係數的信賴區間、P值。這裡有個相當重要的觀點,即便已經採用了隨機化的A/B測試來進行數據分析,
最終在檢驗結果數據時,也應該再次確認P值。

西內啟在書提出了一個重要又簡便的表格,「廣義的回歸分析」分類表:
透過這表格,可以讓不熟習回歸分析實作的分析者,能快速找到正確的統計分析方法來進行數據顯著性的驗證。

具體來說,回歸分析在數據分析工具中,因為其回歸係數的易解釋性,讓分析者在對利害關係者的溝通時較為便利,奠定了它一支獨秀的關鍵角色。能用在解決分層分析會遇到的數據量不足與組合複雜化問題的「多元回歸」,以及預測值為二元的「邏輯回歸」,則都是回歸分析家族的一份子。

最後的章節,西內啟介紹了六大主流的統計學派:
(1)目的在於掌握實際狀況的社會調查法
(2)目的在於找出原因的流行病學及生物統計學
(3)目的在於測量抽象概念的心理統計學
(4)目的在於機械式分類的資料探礦
(5)目的在於處理自然語言的文字探勘
(6)著重在推論的計量經濟學

各學派對機率觀念上的對立,主要分成「貝葉斯派」和「頻率派」,其中社會調查、流行病學、生物統計學及心理統計學領域,許些的誤差足以造成龐大的社會成本,為此追求絕對正確的數據結論,採用頻率論者多。而資料探礦、文字探勘和計量經濟學,則是採用帶有推理性質的貝葉斯派。

因為工作緣故,我前些時日在機器學習上投入不少心力研究,回過頭來閱讀這本傳統統計學科普書籍,從另一個觀點來認識數據分析,倒也是別有趣味。這本書非常適合從事數據分析、策略規劃的知識工作者參閱,用來奠定基礎的統計分析思維。