神州信息亮相服貿會丨關于湖倉一體數據平臺的思考
- 發布時間:2023-09-07
- 來源:
- 大 中 小
- 打印
在主題為“科技賦能—金融業數字化轉型與發展”的中國金融科技論壇上,神州信息上地大數據研究院數據科學家卜仁海做了題為《關于湖倉一體數據平臺的思考》的演講。
以下為演講實錄:
首先,我們來看一下數據平臺的發展歷程。
大約20多年前,信息化程度較高的行業的頭部企業,開始建設數據倉庫。當時的數據主要是企業內部系統的結構化數據,數據應用主要是BI分析及報表。隨著業務需求及數據形態的變化,開始建設數據湖。原因是參與分析的非結構化數據逐漸增多,數據應用也有了新的擴展,實時計算、人工智能、機器學習等場景逐漸增多。
最近幾年,開始流行起了湖倉一體的數據平臺概念。
需要說明的是,這張圖來自國外,圖里沒有出現數據倉庫,這并不是說數據倉庫消失了。當我們說數據倉庫、數據湖的時候,其實有兩種說法,一種說法是指硬件平臺,一種說法是指數據的組織結構。這張圖里說的是硬件平臺,指的是用一個硬件平臺來實現湖和倉的建設,也被認為是真正的湖倉一體。
國內在規劃建設湖倉一體的時候,在方式上會相對靈活些。
國內建設湖倉一體的方式
接下來,我們來看一下國內建設湖倉一體的幾種方式。方式一和方式二我們可以認為是邏輯上的一體,方式三是平臺級的一體。
方式一采用融合的方式,數倉平臺和數據湖平臺間存在實際上的數據復制,如果數據的管理、調度等自動化程度較低,流程不完善,則不僅僅是數據冗余的問題,還涉及到應用效率等方面的問題
方式二采用編織的方式,數倉平臺和數據湖平臺間可以不用數據復制,業務人員的訪問接口是Fabric組件,由此組件解析優化訪問語句,計算處可以是倉、湖以及Fabric組件,具體要看Fabric組件的優化策略和能力。需要說明的是,Fabric的訪問語句通常不會完全覆蓋倉、湖數據庫的所有語句。
方式三是真正物理平臺上的一體,或者說其上的各個數據庫可以直接訪問彼此的文件系統和存儲結構,這也是最理想的情況。
湖倉一體數據平臺的優勢
為什么說湖倉一體大概率是數據平臺的趨勢呢,它有什么好處呢?
首先,它可以容納多模態的數據,比如音頻、視頻、圖片、文檔等。其次,豐富的計算引擎,簡單的說,就是無論什么樣的數據,都可以相對容易的找到其對應的計算引擎并部署。并且是存算分離的,也就是說,存儲部件和計算部件是分離的,可以各自彈性擴展。流批計算一體。支持人工智能、機器學習。
數據平臺經歷了分的過程,目的是為了滿足不同數據的不同計算需求,現如今正逐漸走向合的階段,目的是為了易管易用、簡單高效。技術總是在不斷進步的,湖倉一體尚在逐步發展階段。通過我們對不同湖倉產品平臺的了解,以及對未來湖倉一體的期待,這里簡單提出一點想法,請大家批評指正。
對未來湖倉一體的期待
比如,我們是否可以將存算分離分地再徹底一些?
企業的數據是越來越多的,計算基于數據,同樣也不會是局限的。拿數據庫來說,關系型數據庫、圖數據庫、KV數據庫、時序數據庫、向量數據庫等等。另外,大模型又為我們提供了一個新的數據計算場景。也就是從邏輯上看,數據的存儲和數據的計算,天然的是可以分離的。只是因為一些非技術壁壘及其它原因,導致不同數據庫間難以實現直接的數據訪問。
這里我們只從存技術角度,考慮將企業對數據的存和算建設成兩個分離的中心,也就是湖倉一體的兩個重要組件。
存儲中心需要考慮的是如何建設一個高效的存儲架構和網絡架構,如何實現一個高效的數據訪問機制和接口,它應該有自己的文件系統、尋址機制、緩存機制等等。
計算中心需要考慮的是如何設計一個高效靈活的資源管理和調度策略,如何靈活配置接入其它計算引擎組件,如何實現一個高效的緩存機制減少與存儲中心的數據吞吐等等。對于像大模型這類計算應用,我們當然也希望湖倉一體有這個能力承接。
當然,這些僅是對湖倉一體未來能力的暢想,未必就是各家企業的場景應用需求。各企業基于自身數據基礎、當前數據應用的痛點和需求以及未來數據架構布局及規劃,對湖倉一體的期待各有不同。
湖倉一體體系架構
我們先從湖倉一體體系架構的角度簡單看下體系建設內容。
這里的體系架構是從功能層面闡述框架內容的。體系架構的意義不僅可以用來定義各框架的規范、邊界、接口、制度、流程等內容,還可以用來評估當前數據體系建設及運營情況,指引接下來的建設內容等。
此圖僅作參考,各企業可按自身實際情況做相應改動,但需要注意的是不要把產品平臺當成框架本身。比如神州信息的數據開發平臺“六合上甲”,平臺本身包含了需求管理、數據建模、數據開發、采集交換、數據服務、數據治理等內容,它跨接了體系框架的多個組成部分,需要通過規范接口對接各框架組件,“六合上甲”產品本身不是體系框架。圖中的探索、標簽、指標其實是數據產品管理框架的實際組成產品,這里用產品平臺來說明其為框架與產品的區別。
湖倉一體數據架構
接下來再看一下湖倉一體的數據架構情況
這里是采用方式三物理一體的實現方式設計的簡單數據架構,僅供參考。對于數據量、業務量、復雜度不高的企業而言,數據倉庫可以基于應用建設,即數倉只要滿足企業級報表和部分數據分析的需求即可,需求相對固定且穩定。對于業務部門敏捷靈活的分析應用而言,其數據源可以來自標準化數據區。
標準化數據區對于那些對數據流向管控嚴格,要求凡是數據需求可由數倉提供的,不允許從湖區直接取數的企業而言,可以不建設。但同時會對數倉的建設及其數據產品運維推廣工作要求較高。
數據架構中定義的數據區不是簡單的數據容器,它同時也定義了規范、邊界、制度、流程、接口等等,數據產品的開發運維及相應的資源配置是其運營的關鍵。部分企業在數據運營中的痛點多多少少與此相關,這不是有了湖倉一體就能解決的問題,但卻可以通過湖倉一體建設為契機,通過咨詢及服務的方式,幫助企業及其各部門建設相配套的數據團隊,來實現企業的數字化轉型。