從一個問題開始

當你在 AI Teller 輸入「電影的售票趨勢是什麼?」,AI 是怎麼知道要去哪裡找資料、找到什麼、然後回答你的?

這背後不是魔法,而是一套有層次的系統設計。這一章會帶你理解這個系統的三個關鍵層次。


系統架構全覽

image.png

整個流程可以這樣理解:你的問題,經由 AI Agent,透過 MCP 協定,去查詢 Semantic Layer,Semantic Layer 再從 DataPlanet 裡找到對應的資料,最後把答案帶回來給你。


第一層:DataPlanet — 整理好的資料

Aralia 平台上的每一個 DataPlanet,都是一個主題式的資料倉庫。影視娛樂、交通監控、能源、房市實價……每個 DataPlanet 裡的資料都已經過整理,採用統一的結構(Star Schema),方便 AI 進行查詢與聚合分析。

但光有整理好的資料還不夠——AI 需要「理解」這些資料的意義,才能回答你的問題。這就是 Semantic Layer 的工作。


第二層:Semantic Layer — 讓 AI 看懂資料的意義

Semantic Layer 是整套系統的核心。它的工作是替資料加上「語意標記」,讓 AI 不只知道一欄叫做 sale_amount,還知道它代表「銷售金額(台幣)」、屬於「影視娛樂資料集」、適合用來做「趨勢分析」。

Semantic Layer 由三個部分組成:

Embedding 與向量資料庫

想像你在圖書館找書。傳統方式是用關鍵字搜尋書名——你輸入「電影」,只能找到書名含有「電影」的書。

Embedding 技術則不同。它把每一份資料集、每一個欄位,都轉換成一個「語意座標」,讓意思相近的東西在座標空間裡靠在一起。所以當你問「售票趨勢」,系統會找到語意最接近的資料欄位——即使欄位名稱裡沒有「售票」這兩個字。

這些語意座標統一存放在**向量資料庫(Vector Database)**中,讓系統能快速比對語意相似度。