應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

從“智能湖倉”升級看數(shù)據(jù)平臺架構(gòu)未來方向

2021-12-31 13:42 媒體合作

導(dǎo)讀:在技術(shù)行業(yè)風(fēng)向標(biāo)的 2021 亞馬遜云科技 re:Invent 大會上,我們看到了“智能湖倉”架構(gòu)的現(xiàn)在和未來構(gòu)想。

  在2021年初全年技術(shù)趨勢展望中,數(shù)據(jù)湖與數(shù)據(jù)倉庫的融合,成為大數(shù)據(jù)領(lǐng)域的趨勢重點(diǎn)。直至年末,關(guān)于二者的討論依然熱烈,行業(yè)內(nèi)的主要分歧點(diǎn)在于數(shù)據(jù)湖、數(shù)據(jù)倉庫對存儲系統(tǒng)訪問、權(quán)限管理等方面的把控;行業(yè)內(nèi)的主要共識點(diǎn)則是二者結(jié)合必能降低大數(shù)據(jù)分析的成本,提高易用性。

  而此類爭論,又反映了行業(yè)在大數(shù)據(jù)處理領(lǐng)域的核心訴求:如何通過數(shù)據(jù)湖、數(shù)據(jù)倉庫的設(shè)計(jì),有效滿足現(xiàn)代化應(yīng)用的數(shù)據(jù)架構(gòu)要求。亞馬遜云科技作為行業(yè)頭部云廠商,也推出了與數(shù)據(jù)湖、數(shù)據(jù)倉庫融合相關(guān)的“智能湖倉”。為什么“智能湖倉”可以更智能地集成數(shù)據(jù)湖、數(shù)據(jù)倉庫和其他數(shù)據(jù)處理服務(wù)?“智能湖倉”架構(gòu)備受關(guān)注意味著什么?在技術(shù)行業(yè)風(fēng)向標(biāo)的 2021 亞馬遜云科技 re:Invent 大會上,我們看到了“智能湖倉”架構(gòu)的現(xiàn)在和未來構(gòu)想。

  1.被廣泛關(guān)注的“智能湖倉”架構(gòu)

  理解“智能湖倉”架構(gòu)的現(xiàn)在和未來,需要先了解它的過去。早在 2017 年,“智能湖倉”架構(gòu)就已初具雛形。當(dāng)時(shí),亞馬遜云科技發(fā)布了 Amazon Redshift Spectrum,讓 Amazon Redshift 具備了打通數(shù)據(jù)倉庫和數(shù)據(jù)湖的能力,實(shí)現(xiàn)了跨數(shù)據(jù)湖、數(shù)據(jù)倉庫的數(shù)據(jù)查詢。

  這件事情啟發(fā)了“智能湖倉”架構(gòu)的形成。在 2020 年的亞馬遜云科技 re:Invent 大會上,亞馬遜云科技正式發(fā)布“智能湖倉”。如果從早期的技術(shù)探索開始算起,在 2021 亞馬遜云科技 re:Invent 大會上發(fā)布的 Serverless 能力,代表了“智能湖倉”架構(gòu)的第 8 輪技術(shù)演進(jìn)。如今,“智能湖倉”基于 Amazon S3 構(gòu)建數(shù)據(jù)湖,繞湖集成數(shù)據(jù)倉庫、大數(shù)據(jù)處理、日志分析、機(jī)器學(xué)習(xí)數(shù)據(jù)服務(wù),利用 Amazon Lake Formation、Amazon Glue 等工具可以實(shí)現(xiàn)數(shù)據(jù)的自由流動與統(tǒng)一治理。

  具體而言,“智能湖倉”架構(gòu)下,首先需要打破數(shù)據(jù)孤島形成一個數(shù)據(jù)湖;其次,需要圍繞著數(shù)據(jù)湖,在不同應(yīng)用場景為用戶提供相應(yīng)的分析工具;另外,需要確保數(shù)據(jù)在湖、倉以及專門的服務(wù)之間能夠自由移動;此外,需要確保用統(tǒng)一的方式去管理湖里面數(shù)據(jù)的安全性、訪問控制和審計(jì);最終,需要能夠采用低成本的方法將湖、倉各自的優(yōu)勢有效利用起來,并利用人工智能等創(chuàng)新手段進(jìn)行創(chuàng)新。

  就像 Amazon Redshift 在 2012 年發(fā)布時(shí),引導(dǎo)了云原生數(shù)倉的發(fā)展方向一樣,“智能湖倉”架構(gòu)一經(jīng)發(fā)布就引發(fā)業(yè)內(nèi)廣泛關(guān)注,一方面是因?yàn)閬嗰R遜云科技作為頭部云廠商的行業(yè)地位,另一方面是因?yàn)榇思軜?gòu)在技術(shù)上的創(chuàng)新思路能夠?yàn)樾袠I(yè)帶來一些新的思考。

  “智能湖倉”更強(qiáng)調(diào)“架構(gòu)”而非“產(chǎn)品”,更強(qiáng)調(diào)數(shù)據(jù)的自由流動與統(tǒng)一治理,以及基于湖倉的“智能創(chuàng)新”。如今,“智能湖倉”架構(gòu)不是簡單地將湖與倉打通,而是將湖、倉與專門構(gòu)建的數(shù)據(jù)服務(wù)連接成為一個整體,讓數(shù)據(jù)在其間無縫移動。面對向 TB 級、PB 級,甚至 EB 級增長的數(shù)據(jù),“如何存”和“如何用”不再是相對孤立的話題?!爸悄芎}”向行業(yè)傳遞了一個信號:企業(yè)需要統(tǒng)一數(shù)據(jù)分析工具,實(shí)現(xiàn)數(shù)據(jù)在整個數(shù)據(jù)平臺的自由流轉(zhuǎn)。

  不管是企業(yè)數(shù)據(jù)管理理念的視角,還是在技術(shù)視角下,“智能湖倉”架構(gòu)被廣泛關(guān)注也意味著,隨著數(shù)據(jù)湖和數(shù)據(jù)倉庫的邊界在逐漸淡化,基于兩者的大數(shù)據(jù)處理體系的架構(gòu)正在被重構(gòu)。

  2.“智能湖倉”架構(gòu)下,重構(gòu)中的大數(shù)據(jù)基礎(chǔ)設(shè)施

  這種重構(gòu)大概可以分為幾個維度來理解,其中最重要的是更強(qiáng)的數(shù)據(jù)安全、治理和數(shù)據(jù)共享能力,更敏捷的構(gòu)建方式,更智能的創(chuàng)新手段。

  數(shù)據(jù)安全、治理和共享,重點(diǎn)聚焦跨湖、跨倉庫甚至跨企業(yè)的數(shù)據(jù)流通和治理,致力于實(shí)現(xiàn)真正意義上的數(shù)據(jù)跨域互通;更敏捷的構(gòu)建方式則要將企業(yè)的敏態(tài)追求提升到極致,Serverless 能力的應(yīng)用是其關(guān)鍵;更智能的創(chuàng)新手段則把 AI/ML 能力和大數(shù)據(jù)治理并入統(tǒng)一范疇,避免走入“為了大數(shù)據(jù)而大數(shù)據(jù)”的誤區(qū)。

  在 2022 年,當(dāng)我們再次談起數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合問題時(shí),包含以上關(guān)鍵點(diǎn)的“智能湖倉”架構(gòu),很可能成為被業(yè)內(nèi)重點(diǎn)參考的構(gòu)建思路之一。

  更強(qiáng)的數(shù)據(jù)安全、治理和數(shù)據(jù)共享能力

  數(shù)據(jù)的安全、治理和共享,原是大數(shù)據(jù)的本職任務(wù),但當(dāng)數(shù)據(jù)達(dá)到 PB 乃至 EB 級,需要跨多個區(qū)域、組織、賬戶進(jìn)行數(shù)據(jù)共享或數(shù)據(jù)交互時(shí),企業(yè)有些時(shí)候并非不想細(xì)顆粒度管理數(shù)據(jù),而是無法管理。這種顆粒度的權(quán)限控制往往比單機(jī)系統(tǒng)設(shè)計(jì)或者單一的分布式系統(tǒng)要復(fù)雜得多。所以,數(shù)據(jù)治理成為了“智能湖倉”重要的發(fā)力點(diǎn)。

  在 2021 亞馬遜云科技 re:Invent 大會上,支撐數(shù)據(jù)統(tǒng)一治理和自由流動能力的“智能湖倉”組件 Amazon Lake Formation 發(fā)布了多項(xiàng)新功能。除了之前早已支持的表和列級安全,Amazon Lake Formation 現(xiàn)在支持行和單元級權(quán)限,通過只限制用戶對部分?jǐn)?shù)據(jù)的訪問權(quán)限,讓限制訪問敏感信息變得更加簡單。

  此外,Data mesh 的概念在 2021 亞馬遜云科技 re:Invent 大會上也被提及。Data mesh 概念也是 Gartner 提出的十大數(shù)據(jù)技術(shù)趨勢之一。在 Data mesh 模式下,“智能湖倉”能夠?qū)崿F(xiàn)領(lǐng)域數(shù)據(jù)成為產(chǎn)品、輕松啟用細(xì)粒度授權(quán)、數(shù)據(jù)更容易被使用、數(shù)據(jù)調(diào)用跨企業(yè)可見和聯(lián)邦的數(shù)據(jù)管控與合規(guī)。這意味著,“智能湖倉”架構(gòu)下,Data mesh 可以實(shí)現(xiàn)跨數(shù)據(jù)湖的數(shù)據(jù)共享和計(jì)算。亞馬遜云科技借助自身數(shù)據(jù)湖安全、tag 級別的訪問控制和共享能力,為 Data mesh 提供了實(shí)現(xiàn)方式與手段,讓 Data mesh 概念走向落地。

  更敏捷的構(gòu)建方式

  除了更強(qiáng)的數(shù)據(jù)安全、治理和數(shù)據(jù)共享能力,更敏捷的構(gòu)建方式也是絕大多數(shù)企業(yè)當(dāng)下主要關(guān)注的技術(shù)創(chuàng)新之一。敏捷在企業(yè)間的認(rèn)可度和應(yīng)用程度越來越高,而“智能湖倉”原本就是敏捷的架構(gòu)。在“智能湖倉”架構(gòu)中,Amazon Lake Formation 能夠?qū)⒔?shù)據(jù)湖的時(shí)間從數(shù)月縮短到數(shù)天。用戶可以使用像 Amazon Glue 這樣的 Serverless 數(shù)據(jù)集成工具快速實(shí)現(xiàn)數(shù)據(jù)入湖;使用 Amazon Athena 這樣的 Serverless 查詢引擎直接實(shí)現(xiàn)基于 SQL 語言的湖上數(shù)據(jù)查詢分析。無論是超大型公司還是工作室,都可以從這種敏捷的構(gòu)建方式中快速獲益,提取數(shù)據(jù)的價(jià)值。

  為了讓構(gòu)建方式更敏捷,在 2021 亞馬遜云科技 re:Invent 大會上,亞馬遜云科技宣布推出更多數(shù)據(jù)分析服務(wù)的無服務(wù)器版,借助無服務(wù)器的能力,讓用戶可以更敏捷地構(gòu)建自己的數(shù)據(jù)存儲、分析、智能應(yīng)用解決方案。

  Amazon Redshift Serverless ,讓數(shù)據(jù)倉庫更敏捷,支持在幾秒鐘內(nèi)自動設(shè)置和擴(kuò)展資源,用戶無需管理數(shù)據(jù)倉庫集群,實(shí)現(xiàn) PB 級數(shù)據(jù)規(guī)模運(yùn)行高性能分析工作負(fù)載;

  Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless ,讓流式數(shù)據(jù)接入與處理,支持快速擴(kuò)展資源,簡化實(shí)時(shí)數(shù)據(jù)攝取和流式傳輸,實(shí)現(xiàn)全面監(jiān)控、移動甚至跨集群加載分區(qū),自動調(diào)配和擴(kuò)展計(jì)算和存儲資源,讓用戶可以按需使用 Kafka;

  Amazon EMR Serverless 讓大數(shù)據(jù)處理更敏捷,用戶無需部署、管理和擴(kuò)展底層基礎(chǔ)設(shè)施,使用開源大數(shù)據(jù)框架(如 Apache Spark、Hive 和 Presto)運(yùn)行分析型應(yīng)用程序;

  Amazon Kinesis Data Streams on Demand 讓流式數(shù)據(jù)分析與實(shí)時(shí)數(shù)據(jù)場景搭建更敏捷。每分鐘可以處理數(shù) GB 的寫入和讀取吞吐量,而不必預(yù)置與管理服務(wù)器、存儲,在成本和性能之間取得平衡且變得更加簡單。

  來自亞馬遜云科技的數(shù)據(jù)顯示,現(xiàn)在每天有數(shù)以萬計(jì)的用戶每天在使用 Amazon Redshift 處理超過 2EB 的數(shù)據(jù)。全球最大的制藥公司之一羅氏制藥(Roche)首席云平臺和機(jī)器學(xué)習(xí)工程師 Yannick Misteli 博士表示:“Amazon Redshift Serverless 可減輕運(yùn)營負(fù)擔(dān),降低成本,并幫助羅氏制藥規(guī)?;瘜?shí)踐 Go-to-Market 策略。這種極簡的方式改變了游戲規(guī)則,幫助我們快速上手并支持各種繁重的分析場景?!?/p>

  更智能的創(chuàng)新手段

  正如 Yannick Misteli 提到的一樣,近些年來,底層的技術(shù)創(chuàng)新推動業(yè)務(wù)層的改變,而業(yè)務(wù)層的訴求也倒逼底層技術(shù)的進(jìn)步。游戲規(guī)則正在技術(shù)升級中改變。如今,“智能”是絕大多數(shù)技術(shù)的演進(jìn)目標(biāo)。在亞馬遜云科技的“智能湖倉”架構(gòu)中,也將“智能”提到了一個相當(dāng)重要的位置。

  “智能湖倉”架構(gòu)下,數(shù)據(jù)庫服務(wù)與人工智能和機(jī)器學(xué)習(xí)深度集成。在具體的產(chǎn)品上,亞馬遜云科技提供了 Amazon Aurora ML、Amazon Neptune ML、Amazon Redshift ML 等諸多數(shù)據(jù)庫原生的機(jī)器學(xué)習(xí)服務(wù)。

  同時(shí),在“智能湖倉”架構(gòu)中,還有云原生人工智能平臺 Amazon SageMaker ,它提供了多類機(jī)器學(xué)習(xí)庫和開發(fā)工具包,幫助用戶快速構(gòu)建人工智能應(yīng)用。當(dāng)用戶需要面對大量數(shù)據(jù)處理場景時(shí),可以使用 Amazon SageMaker 內(nèi)置的工具輕松快速連接到 Amazon EMR 集群進(jìn)行大數(shù)據(jù)處理。而 Amazon EMR Serverless,也幫助人工智能相關(guān)的數(shù)據(jù)處理與分析變得足夠敏捷。

  在 Gartner 2021 年發(fā)布的報(bào)告《Magic Quadrant for Cloud Database Management Systems》中,亞馬遜云科技連續(xù) 7 年被評為“領(lǐng)導(dǎo)者”,這項(xiàng)報(bào)告面向的主要是對各大廠商提供的云數(shù)據(jù)庫、云數(shù)據(jù)分析工具進(jìn)行全景評估,并給出最終位置的“測評報(bào)告”,含金量可見一斑。亞馬遜云科技參與評測的產(chǎn)品均為“智能湖倉”架構(gòu)中的代表產(chǎn)品,這個“領(lǐng)導(dǎo)者地位”背后代表的技術(shù)成熟度不言自明。

  我們可以看到,“智能湖倉”提供的每一款服務(wù)工具的迭代,都在向更敏捷、更安全、更智能的數(shù)據(jù)架構(gòu)目標(biāo)邁進(jìn)。數(shù)據(jù)架構(gòu)作為企業(yè)數(shù)字化轉(zhuǎn)型的最底層,也是應(yīng)用現(xiàn)代化的底層動力?!爸悄芎}”帶來的數(shù)據(jù)管理方式的變革,也承載著亞馬遜云科技對應(yīng)用現(xiàn)代化的構(gòu)想。

  3.寫在最后

  回到文章開篇提到的問題,目前行業(yè)內(nèi)已經(jīng)形成了數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合必將降低大數(shù)據(jù)分析成本的共識,主要分歧點(diǎn)在于數(shù)據(jù)湖、數(shù)據(jù)倉庫對存儲系統(tǒng)訪問、權(quán)限管理等方面的把控。在這些方面,亞馬遜云科技的“智能湖倉”架構(gòu)圍繞這些問題都提供了相關(guān)的工具或服務(wù)。

  無論是在數(shù)據(jù)基礎(chǔ)架構(gòu)、統(tǒng)一分析還是業(yè)務(wù)創(chuàng)新上,從連接數(shù)據(jù)湖和數(shù)據(jù)倉庫到跨數(shù)據(jù)庫、跨域共享,“智能湖倉”在實(shí)際的業(yè)務(wù)場景中并非孤立存在,而是與應(yīng)用程序緊密相連。

  底層數(shù)據(jù)架構(gòu)的現(xiàn)代化演進(jìn),也將為企業(yè)乃至全行業(yè)帶來更大的價(jià)值。數(shù)據(jù),作為與土地、勞動力、資本、技術(shù)并列的“第五大生產(chǎn)要素”,重要性不言而喻。如今,亞馬遜云科技“智能湖倉”架構(gòu)在企業(yè)中的實(shí)踐,已經(jīng)為企業(yè)構(gòu)建現(xiàn)代化數(shù)據(jù)平臺提供了一條可供遵循的路徑。