這本書是線上開放式課程的教材重編而成,難免散發出濃濃的學術味,耐著性子看完,像極了去國外上一堂資訊科學的選修課程,還不用考期中、期末考。不過對在資訊圈打滾多年充滿實作精神的IT人而言,對書中終章講解後設資料如何應用較容易提起興緻,因此讀來會像倒吃甘蔗。語意網的願景是資料網,想藉由網際網路的通用普遍性,標註、聯結物理世界中的五花八門的所有物件,進而讓萬事萬物皆可被查詢和分析。妙的是,作者提及的後設資料的未來,解決IT系統整合的全代理程式或稱通用型代理程式,目前卻是由大紅大紫的AI大張旗鼓,試圖達成這個終極理想。在生成式AI對非結構化文字的超能力作用下,許多嘗試用結構化文字來優化資訊系統的自然語言處理技術都算是被打入冷宮,呈現出一種「倚天一出,誰與爭鋒」的態勢。然而語意網或是大數據運用中的標籤子系統,在系統穩定、效能和維運成本各方面還是有勝過生成式AI的優勢,在資訊處理系統的技術選擇上,「殺雞不用牛刀」也是種智慧。
實踐後設資料的資訊技術主要有結構化資料,或說更具體的是關聯式資料庫。另一個被提到的是可擴充標記語言(XML)或是更常見的超文件標記語言(HTML)。在概念上的指導技術則是一個通用的資源描述架構,名為都柏林核心後設資料組織抽象模型(DCMI抽象模型),這也是建立都柏林核心後設資料網要背後的理論架構。不過我相信記不起來沒關係,這名詞對大多數人來說看過就會忘記吧。
使用性後設資料、管理性後設資料和描敘性後設資料,已各自在不同資訊應用中扮演重要的角色。使用性後設資料的應用相當具爭議性,如維基解密所透露,任何組織都可以藉由分析電信系統裡的使用性後設資料,如號碼、時長和地點等資料,在不違法側錄對話內容的前提下,進行侵略性的監視和調查。使用性後設資料在大數據技術中被稱為資料廢氣,名稱看似有貶低之意,但如果做的對、做的好,那可是在浪裡淘金的生意。管理性後設資料旨在描述、定義資源要如何被妥善管理,可進一步細分成技術性後設資料,它最常見的應用是在數位影像領域中替軟硬體整合搭起橋樑,定義緒如檔案格式、解析度和曝光等資料。另外還有出處後設資料、保存性後設資料和權利後設資料,三者則是用在藝術品典藏和學術期刊引用這些特定用途的資訊系統中。描敘性後設資料則是大眾提及後設資料一詞的第一印象,畢竟後設資料的遞迴定義便是「用來描敘資料的資料」。而搜尋引擎最佳化(SEO)和大數據應用裡的標籤系統都是源自這種類型的後設資料。
越前面的節章就越偏向資訊處理的基礎概念。內容包括資源的唯一識別碼或是其具體實踐的統一資源定位符(URL)。不可免得還有更富有理論性質的東西,像是哲學的本體論、控制詞彙或稱為索引典和名稱權威檔等等。理論的終點是講到後設資料的指稱標的,它所描述的資源。以及如何描述的文字結構,也就是三元組,形式是主題-述語-物件。這篇心得是反過來寫,書中的章節則是從基礎寫到應用,讀者只要跨過前兩章純理論的內文,後面讀來就不會那麼生硬乏味。
總得來說,後設資料一書確實能讓從事數據分析職務的讀者,獲得純理論面的背景知識和學到一點富有學術感的專業術語。這點養分是否有助於未來的實務工作那就不置可否,畢竟它很明顯不是定位成一本實作的資訊工具書。額外一提,本書的譯者在文字口語化上的功力算是有待加強,許多文句讀來略為生硬,徒增這本書的閱讀門檻。

沒有留言:
張貼留言