技術(shù)
導(dǎo)讀:集中式數(shù)據(jù)團(tuán)隊(duì)對(duì)數(shù)據(jù)的了解程度無法與只專注于全部數(shù)據(jù)中特定部分的具體業(yè)務(wù)團(tuán)隊(duì)相提并論。
組織多年來的一貫做法是將所有數(shù)據(jù)整合到單一位置,例如數(shù)據(jù)倉庫或近年來興起的數(shù)據(jù)湖。但是,集中式數(shù)據(jù)基礎(chǔ)架構(gòu)的一些弊端已初現(xiàn)端倪:
集中式數(shù)據(jù)團(tuán)隊(duì)對(duì)數(shù)據(jù)的了解程度無法與只專注于全部數(shù)據(jù)中特定部分的具體業(yè)務(wù)團(tuán)隊(duì)相提并論。集中式數(shù)據(jù)基礎(chǔ)架構(gòu)缺乏靈活性,難以滿足組織內(nèi)所有不同部門的需求。集中多個(gè)數(shù)據(jù)源的數(shù)據(jù)不僅會(huì)耗費(fèi)大量時(shí)間,而且還會(huì)導(dǎo)致數(shù)據(jù)使用者無法按需訪問數(shù)據(jù)。
為了克服這些問題,技術(shù)顧問 Zhamak Dehghani 提議采用一種名為“數(shù)據(jù)網(wǎng)格”的分散式數(shù)據(jù)基礎(chǔ)架構(gòu)。
在數(shù)據(jù)網(wǎng)格配置中,組織內(nèi)的不同部門或群組將擁有單獨(dú)的“數(shù)據(jù)域”,由中央自助式數(shù)據(jù)平臺(tái)提供支持,并按照一套總體標(biāo)準(zhǔn)進(jìn)行管理,以確保互操作性。每個(gè)數(shù)據(jù)域都將提供“數(shù)據(jù)產(chǎn)品”,設(shè)計(jì)上方便目標(biāo)受眾使用,且符合組織全局標(biāo)準(zhǔn)。
值得一提的是,盡管所有權(quán)分散,但預(yù)配和治理保持集中。此架構(gòu)具有直觀意義,并有望克服完全集中式基礎(chǔ)架構(gòu)的局限性,但組織如何在獲得中央數(shù)據(jù)平臺(tái)支持與保持域的獨(dú)立性之間實(shí)現(xiàn)一種微妙的平衡呢?
進(jìn)入數(shù)據(jù)虛擬化
Denodo數(shù)據(jù)虛擬化作為一種數(shù)據(jù)集成技術(shù),堪稱實(shí)現(xiàn)數(shù)據(jù)網(wǎng)格的完美選擇。與提取、轉(zhuǎn)換和加載 (ETL) 流程以及其他面向批處理的數(shù)據(jù)集成方法不同,數(shù)據(jù)虛擬化讓數(shù)據(jù)使用者無需先將數(shù)據(jù)復(fù)制到集中式存儲(chǔ)庫即可訪問數(shù)據(jù)。因此,數(shù)據(jù)虛擬化在本質(zhì)上可以被視為一種“分散式”數(shù)據(jù)集成策略。
數(shù)據(jù)虛擬化是一個(gè)建立在組織內(nèi)不同數(shù)據(jù)源之上的企業(yè)范圍的層。要在不同數(shù)據(jù)源之間進(jìn)行查詢時(shí),數(shù)據(jù)使用者只需查詢數(shù)據(jù)虛擬化層,然后該層便會(huì)檢索所需數(shù)據(jù),讓使用者不必受困于訪問的復(fù)雜性。
數(shù)據(jù)虛擬化層不含實(shí)際數(shù)據(jù);但其存儲(chǔ)了訪問各種數(shù)據(jù)源所需的所有元數(shù)據(jù)。數(shù)據(jù)虛擬化提供單一位置來存儲(chǔ)元數(shù)據(jù),支持組織從單一控制點(diǎn),在整個(gè)組織范圍內(nèi)自動(dòng)實(shí)現(xiàn)基于角色的安全性和執(zhí)行數(shù)據(jù)治理協(xié)議。例如,組織可以自動(dòng)脫敏處理薪資數(shù)據(jù),用戶必須擁有必要憑據(jù)才可查看此類信息。
數(shù)據(jù)虛擬化層提供數(shù)據(jù)網(wǎng)格架構(gòu)中所需的“自助式數(shù)據(jù)平臺(tái)”的所有必要功能。組織可在數(shù)據(jù)虛擬化層之上實(shí)施多個(gè)語義層,由不同部門架構(gòu),并作為半自治數(shù)據(jù)域運(yùn)行。每一個(gè)語義層都可以靈活地調(diào)整、更改或移除,而不會(huì)
改變或影響底層數(shù)據(jù)。此外,組織可以輕松地建立支持跨域重用的標(biāo)準(zhǔn)數(shù)據(jù)定義。
數(shù)據(jù)虛擬化和數(shù)據(jù)產(chǎn)品
數(shù)據(jù)虛擬化完全適用于數(shù)據(jù)產(chǎn)品開發(fā)。即使編碼能力有限,利益相關(guān)者也可利用數(shù)據(jù)虛擬化層創(chuàng)建虛擬模型,無需了解為之饋送信息的數(shù)據(jù)源的復(fù)雜性。隨后,他們可以利用一系列靈活的方法(例如 SQL、REST、OData、GraphQL 或 MDX),使這些虛擬模型作為數(shù)據(jù)產(chǎn)品被訪問,此過程同樣不需要編寫代碼。
“開箱即用”型數(shù)據(jù)虛擬化設(shè)置的初衷是為數(shù)據(jù)產(chǎn)品提供支持,使其兼容數(shù)據(jù)沿襲跟蹤、自主記錄、變更影響分析、身份管理和單點(diǎn)登錄 (SSO) 等功能。
此外,數(shù)據(jù)虛擬化還支持在組織范圍內(nèi)的數(shù)據(jù)產(chǎn)品目錄中注冊(cè)數(shù)據(jù)產(chǎn)品。通過集中存儲(chǔ)元數(shù)據(jù),數(shù)據(jù)虛擬化層可向組織中按域有序排列的數(shù)據(jù)資產(chǎn)提供全功能綜合目錄的所有必要成分。
數(shù)據(jù)虛擬化和數(shù)據(jù)域自治
數(shù)據(jù)虛擬化使組織能夠在不影響底層數(shù)據(jù)的情況下,在源數(shù)據(jù)之上構(gòu)建視圖和語義模型,因此,數(shù)據(jù)虛擬化為數(shù)據(jù)域自治提供了現(xiàn)成的基礎(chǔ)。
在基于數(shù)據(jù)虛擬化的架構(gòu)中,數(shù)據(jù)域利益相關(guān)者將能夠選擇為其產(chǎn)品饋送數(shù)據(jù)的數(shù)據(jù)源,并根據(jù)需要更改這一組合。許多業(yè)務(wù)部門已經(jīng)在運(yùn)營自己的數(shù)據(jù)集市和滿足偏好的 SaaS 應(yīng)用程序,并且在數(shù)據(jù)網(wǎng)格配置中重用這些內(nèi)容易如反掌。數(shù)據(jù)域可以通過數(shù)據(jù)虛擬化獨(dú)立擴(kuò)展。
請(qǐng)務(wù)必注意,數(shù)據(jù)虛擬化不能取代數(shù)據(jù)倉庫和數(shù)據(jù)湖等單體存儲(chǔ)庫;數(shù)據(jù)虛擬化處理此類存儲(chǔ)庫的方式與任何其他數(shù)據(jù)源相同,在數(shù)據(jù)網(wǎng)格配置中,它們將成為網(wǎng)格中的節(jié)點(diǎn)。這意味著與現(xiàn)有數(shù)據(jù)倉庫或數(shù)據(jù)湖聯(lián)系緊密的數(shù)據(jù)域可以繼續(xù)通過這種方式為某些數(shù)據(jù)產(chǎn)品提供服務(wù),例如需要機(jī)器學(xué)習(xí)的數(shù)據(jù)產(chǎn)品。在這種情況下,數(shù)據(jù)產(chǎn)品仍將通過虛擬層被訪問,管理數(shù)據(jù)產(chǎn)品的協(xié)議也與管理數(shù)據(jù)網(wǎng)格其余部分的協(xié)議相同。
編織網(wǎng)格
數(shù)據(jù)網(wǎng)格可以避開高度集中型數(shù)據(jù)基礎(chǔ)架構(gòu)的許多陷阱,是一種前景廣闊的新架構(gòu)。幸運(yùn)的是,數(shù)據(jù)虛擬化作為一種現(xiàn)代數(shù)據(jù)集成和數(shù)據(jù)管理技術(shù),有望以一種簡單明了的方式落實(shí)數(shù)據(jù)網(wǎng)格理念,而無需更換舊硬件。