導讀:在技術行業(yè)風向標的 2021 亞馬遜云科技 re:Invent 大會上,我們看到了“智能湖倉”架構(gòu)的現(xiàn)在和未來構(gòu)想。
在2021年初全年技術趨勢展望中,數(shù)據(jù)湖與數(shù)據(jù)倉庫的融合,成為大數(shù)據(jù)領域的趨勢重點。直至年末,關于二者的討論依然熱烈,行業(yè)內(nèi)的主要分歧點在于數(shù)據(jù)湖、數(shù)據(jù)倉庫對存儲系統(tǒng)訪問、權限管理等方面的把控;行業(yè)內(nèi)的主要共識點則是二者結(jié)合必能降低大數(shù)據(jù)分析的成本,提高易用性。
而此類爭論,又反映了行業(yè)在大數(shù)據(jù)處理領域的核心訴求:如何通過數(shù)據(jù)湖、數(shù)據(jù)倉庫的設計,有效滿足現(xiàn)代化應用的數(shù)據(jù)架構(gòu)要求。亞馬遜云科技作為行業(yè)頭部云廠商,也推出了與數(shù)據(jù)湖、數(shù)據(jù)倉庫融合相關的“智能湖倉”。為什么“智能湖倉”可以更智能地集成數(shù)據(jù)湖、數(shù)據(jù)倉庫和其他數(shù)據(jù)處理服務?“智能湖倉”架構(gòu)備受關注意味著什么?在技術行業(yè)風向標的 2021 亞馬遜云科技 re:Invent 大會上,我們看到了“智能湖倉”架構(gòu)的現(xiàn)在和未來構(gòu)想。
1.被廣泛關注的“智能湖倉”架構(gòu)
理解“智能湖倉”架構(gòu)的現(xiàn)在和未來,需要先了解它的過去。早在 2017 年,“智能湖倉”架構(gòu)就已初具雛形。當時,亞馬遜云科技發(fā)布了 Amazon Redshift Spectrum,讓 Amazon Redshift 具備了打通數(shù)據(jù)倉庫和數(shù)據(jù)湖的能力,實現(xiàn)了跨數(shù)據(jù)湖、數(shù)據(jù)倉庫的數(shù)據(jù)查詢。
這件事情啟發(fā)了“智能湖倉”架構(gòu)的形成。在 2020 年的亞馬遜云科技 re:Invent 大會上,亞馬遜云科技正式發(fā)布“智能湖倉”。如果從早期的技術探索開始算起,在 2021 亞馬遜云科技 re:Invent 大會上發(fā)布的 Serverless 能力,代表了“智能湖倉”架構(gòu)的第 8 輪技術演進。如今,“智能湖倉”基于 Amazon S3 構(gòu)建數(shù)據(jù)湖,繞湖集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機器學習數(shù)據(jù)服務,利用 Amazon Lake Formation、Amazon Glue 等工具可以實現(xiàn)數(shù)據(jù)的自由流動與統(tǒng)一治理。
具體而言,“智能湖倉”架構(gòu)下,首先需要打破數(shù)據(jù)孤島形成一個數(shù)據(jù)湖;其次,需要圍繞著數(shù)據(jù)湖,在不同應用場景為用戶提供相應的分析工具;另外,需要確保數(shù)據(jù)在湖、倉以及專門的服務之間能夠自由移動;此外,需要確保用統(tǒng)一的方式去管理湖里面數(shù)據(jù)的安全性、訪問控制和審計;最終,需要能夠采用低成本的方法將湖、倉各自的優(yōu)勢有效利用起來,并利用人工智能等創(chuàng)新手段進行創(chuàng)新。
就像 Amazon Redshift 在 2012 年發(fā)布時,引導了云原生數(shù)倉的發(fā)展方向一樣,“智能湖倉”架構(gòu)一經(jīng)發(fā)布就引發(fā)業(yè)內(nèi)廣泛關注,一方面是因為亞馬遜云科技作為頭部云廠商的行業(yè)地位,另一方面是因為此架構(gòu)在技術上的創(chuàng)新思路能夠為行業(yè)帶來一些新的思考。
“智能湖倉”更強調(diào)“架構(gòu)”而非“產(chǎn)品”,更強調(diào)數(shù)據(jù)的自由流動與統(tǒng)一治理,以及基于湖倉的“智能創(chuàng)新”。如今,“智能湖倉”架構(gòu)不是簡單地將湖與倉打通,而是將湖、倉與專門構(gòu)建的數(shù)據(jù)服務連接成為一個整體,讓數(shù)據(jù)在其間無縫移動。面對向 TB 級、PB 級,甚至 EB 級增長的數(shù)據(jù),“如何存”和“如何用”不再是相對孤立的話題?!爸悄芎}”向行業(yè)傳遞了一個信號:企業(yè)需要統(tǒng)一數(shù)據(jù)分析工具,實現(xiàn)數(shù)據(jù)在整個數(shù)據(jù)平臺的自由流轉(zhuǎn)。
不管是企業(yè)數(shù)據(jù)管理理念的視角,還是在技術視角下,“智能湖倉”架構(gòu)被廣泛關注也意味著,隨著數(shù)據(jù)湖和數(shù)據(jù)倉庫的邊界在逐漸淡化,基于兩者的大數(shù)據(jù)處理體系的架構(gòu)正在被重構(gòu)。
2.“智能湖倉”架構(gòu)下,重構(gòu)中的大數(shù)據(jù)基礎設施
這種重構(gòu)大概可以分為幾個維度來理解,其中最重要的是更強的數(shù)據(jù)安全、治理和數(shù)據(jù)共享能力,更敏捷的構(gòu)建方式,更智能的創(chuàng)新手段。
數(shù)據(jù)安全、治理和共享,重點聚焦跨湖、跨倉庫甚至跨企業(yè)的數(shù)據(jù)流通和治理,致力于實現(xiàn)真正意義上的數(shù)據(jù)跨域互通;更敏捷的構(gòu)建方式則要將企業(yè)的敏態(tài)追求提升到極致,Serverless 能力的應用是其關鍵;更智能的創(chuàng)新手段則把 AI/ML 能力和大數(shù)據(jù)治理并入統(tǒng)一范疇,避免走入“為了大數(shù)據(jù)而大數(shù)據(jù)”的誤區(qū)。
在 2022 年,當我們再次談起數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合問題時,包含以上關鍵點的“智能湖倉”架構(gòu),很可能成為被業(yè)內(nèi)重點參考的構(gòu)建思路之一。
更強的數(shù)據(jù)安全、治理和數(shù)據(jù)共享能力
數(shù)據(jù)的安全、治理和共享,原是大數(shù)據(jù)的本職任務,但當數(shù)據(jù)達到 PB 乃至 EB 級,需要跨多個區(qū)域、組織、賬戶進行數(shù)據(jù)共享或數(shù)據(jù)交互時,企業(yè)有些時候并非不想細顆粒度管理數(shù)據(jù),而是無法管理。這種顆粒度的權限控制往往比單機系統(tǒng)設計或者單一的分布式系統(tǒng)要復雜得多。所以,數(shù)據(jù)治理成為了“智能湖倉”重要的發(fā)力點。
在 2021 亞馬遜云科技 re:Invent 大會上,支撐數(shù)據(jù)統(tǒng)一治理和自由流動能力的“智能湖倉”組件 Amazon Lake Formation 發(fā)布了多項新功能。除了之前早已支持的表和列級安全,Amazon Lake Formation 現(xiàn)在支持行和單元級權限,通過只限制用戶對部分數(shù)據(jù)的訪問權限,讓限制訪問敏感信息變得更加簡單。
此外,Data mesh 的概念在 2021 亞馬遜云科技 re:Invent 大會上也被提及。Data mesh 概念也是 Gartner 提出的十大數(shù)據(jù)技術趨勢之一。在 Data mesh 模式下,“智能湖倉”能夠?qū)崿F(xiàn)領域數(shù)據(jù)成為產(chǎn)品、輕松啟用細粒度授權、數(shù)據(jù)更容易被使用、數(shù)據(jù)調(diào)用跨企業(yè)可見和聯(lián)邦的數(shù)據(jù)管控與合規(guī)。這意味著,“智能湖倉”架構(gòu)下,Data mesh 可以實現(xiàn)跨數(shù)據(jù)湖的數(shù)據(jù)共享和計算。亞馬遜云科技借助自身數(shù)據(jù)湖安全、tag 級別的訪問控制和共享能力,為 Data mesh 提供了實現(xiàn)方式與手段,讓 Data mesh 概念走向落地。
更敏捷的構(gòu)建方式
除了更強的數(shù)據(jù)安全、治理和數(shù)據(jù)共享能力,更敏捷的構(gòu)建方式也是絕大多數(shù)企業(yè)當下主要關注的技術創(chuàng)新之一。敏捷在企業(yè)間的認可度和應用程度越來越高,而“智能湖倉”原本就是敏捷的架構(gòu)。在“智能湖倉”架構(gòu)中,Amazon Lake Formation 能夠?qū)⒔?shù)據(jù)湖的時間從數(shù)月縮短到數(shù)天。用戶可以使用像 Amazon Glue 這樣的 Serverless 數(shù)據(jù)集成工具快速實現(xiàn)數(shù)據(jù)入湖;使用 Amazon Athena 這樣的 Serverless 查詢引擎直接實現(xiàn)基于 SQL 語言的湖上數(shù)據(jù)查詢分析。無論是超大型公司還是工作室,都可以從這種敏捷的構(gòu)建方式中快速獲益,提取數(shù)據(jù)的價值。
為了讓構(gòu)建方式更敏捷,在 2021 亞馬遜云科技 re:Invent 大會上,亞馬遜云科技宣布推出更多數(shù)據(jù)分析服務的無服務器版,借助無服務器的能力,讓用戶可以更敏捷地構(gòu)建自己的數(shù)據(jù)存儲、分析、智能應用解決方案。
Amazon Redshift Serverless ,讓數(shù)據(jù)倉庫更敏捷,支持在幾秒鐘內(nèi)自動設置和擴展資源,用戶無需管理數(shù)據(jù)倉庫集群,實現(xiàn) PB 級數(shù)據(jù)規(guī)模運行高性能分析工作負載;
Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless ,讓流式數(shù)據(jù)接入與處理,支持快速擴展資源,簡化實時數(shù)據(jù)攝取和流式傳輸,實現(xiàn)全面監(jiān)控、移動甚至跨集群加載分區(qū),自動調(diào)配和擴展計算和存儲資源,讓用戶可以按需使用 Kafka;
Amazon EMR Serverless 讓大數(shù)據(jù)處理更敏捷,用戶無需部署、管理和擴展底層基礎設施,使用開源大數(shù)據(jù)框架(如 Apache Spark、Hive 和 Presto)運行分析型應用程序;
Amazon Kinesis Data Streams on Demand 讓流式數(shù)據(jù)分析與實時數(shù)據(jù)場景搭建更敏捷。每分鐘可以處理數(shù) GB 的寫入和讀取吞吐量,而不必預置與管理服務器、存儲,在成本和性能之間取得平衡且變得更加簡單。
來自亞馬遜云科技的數(shù)據(jù)顯示,現(xiàn)在每天有數(shù)以萬計的用戶每天在使用 Amazon Redshift 處理超過 2EB 的數(shù)據(jù)。全球最大的制藥公司之一羅氏制藥(Roche)首席云平臺和機器學習工程師 Yannick Misteli 博士表示:“Amazon Redshift Serverless 可減輕運營負擔,降低成本,并幫助羅氏制藥規(guī)?;瘜嵺` Go-to-Market 策略。這種極簡的方式改變了游戲規(guī)則,幫助我們快速上手并支持各種繁重的分析場景。”
更智能的創(chuàng)新手段
正如 Yannick Misteli 提到的一樣,近些年來,底層的技術創(chuàng)新推動業(yè)務層的改變,而業(yè)務層的訴求也倒逼底層技術的進步。游戲規(guī)則正在技術升級中改變。如今,“智能”是絕大多數(shù)技術的演進目標。在亞馬遜云科技的“智能湖倉”架構(gòu)中,也將“智能”提到了一個相當重要的位置。
“智能湖倉”架構(gòu)下,數(shù)據(jù)庫服務與人工智能和機器學習深度集成。在具體的產(chǎn)品上,亞馬遜云科技提供了 Amazon Aurora ML、Amazon Neptune ML、Amazon Redshift ML 等諸多數(shù)據(jù)庫原生的機器學習服務。
同時,在“智能湖倉”架構(gòu)中,還有云原生人工智能平臺 Amazon SageMaker ,它提供了多類機器學習庫和開發(fā)工具包,幫助用戶快速構(gòu)建人工智能應用。當用戶需要面對大量數(shù)據(jù)處理場景時,可以使用 Amazon SageMaker 內(nèi)置的工具輕松快速連接到 Amazon EMR 集群進行大數(shù)據(jù)處理。而 Amazon EMR Serverless,也幫助人工智能相關的數(shù)據(jù)處理與分析變得足夠敏捷。
在 Gartner 2021 年發(fā)布的報告《Magic Quadrant for Cloud Database Management Systems》中,亞馬遜云科技連續(xù) 7 年被評為“領導者”,這項報告面向的主要是對各大廠商提供的云數(shù)據(jù)庫、云數(shù)據(jù)分析工具進行全景評估,并給出最終位置的“測評報告”,含金量可見一斑。亞馬遜云科技參與評測的產(chǎn)品均為“智能湖倉”架構(gòu)中的代表產(chǎn)品,這個“領導者地位”背后代表的技術成熟度不言自明。
我們可以看到,“智能湖倉”提供的每一款服務工具的迭代,都在向更敏捷、更安全、更智能的數(shù)據(jù)架構(gòu)目標邁進。數(shù)據(jù)架構(gòu)作為企業(yè)數(shù)字化轉(zhuǎn)型的最底層,也是應用現(xiàn)代化的底層動力。“智能湖倉”帶來的數(shù)據(jù)管理方式的變革,也承載著亞馬遜云科技對應用現(xiàn)代化的構(gòu)想。
3.寫在最后
回到文章開篇提到的問題,目前行業(yè)內(nèi)已經(jīng)形成了數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合必將降低大數(shù)據(jù)分析成本的共識,主要分歧點在于數(shù)據(jù)湖、數(shù)據(jù)倉庫對存儲系統(tǒng)訪問、權限管理等方面的把控。在這些方面,亞馬遜云科技的“智能湖倉”架構(gòu)圍繞這些問題都提供了相關的工具或服務。
無論是在數(shù)據(jù)基礎架構(gòu)、統(tǒng)一分析還是業(yè)務創(chuàng)新上,從連接數(shù)據(jù)湖和數(shù)據(jù)倉庫到跨數(shù)據(jù)庫、跨域共享,“智能湖倉”在實際的業(yè)務場景中并非孤立存在,而是與應用程序緊密相連。
底層數(shù)據(jù)架構(gòu)的現(xiàn)代化演進,也將為企業(yè)乃至全行業(yè)帶來更大的價值。數(shù)據(jù),作為與土地、勞動力、資本、技術并列的“第五大生產(chǎn)要素”,重要性不言而喻。如今,亞馬遜云科技“智能湖倉”架構(gòu)在企業(yè)中的實踐,已經(jīng)為企業(yè)構(gòu)建現(xiàn)代化數(shù)據(jù)平臺提供了一條可供遵循的路徑。