技術(shù)
導(dǎo)讀:云計(jì)算為很多企業(yè)提供了機(jī)會(huì),以按需供應(yīng)的基礎(chǔ)設(shè)施和“無(wú)限”的規(guī)模來(lái)應(yīng)對(duì)意外情況。但是在真正的災(zāi)難情況下,“無(wú)限規(guī)?!钡奈锢韺?shí)用性開始顯現(xiàn)。
云計(jì)算為很多企業(yè)提供了機(jī)會(huì),以按需供應(yīng)的基礎(chǔ)設(shè)施和“無(wú)限”的規(guī)模來(lái)應(yīng)對(duì)意外情況。但是在真正的災(zāi)難情況下,“無(wú)限規(guī)?!钡奈锢韺?shí)用性開始顯現(xiàn)。
一位平臺(tái)架構(gòu)師表示,他在2020年3月批準(zhǔn)了一個(gè)HDInsight群集(微軟公司提供的托管Hadoop產(chǎn)品)到我生產(chǎn)環(huán)境的部署。正在為期待已久的基于Azure的數(shù)據(jù)平臺(tái)的下一階段上線,當(dāng)他突然從DevOps主管那里接到電話時(shí),主管說(shuō),“我在新的生產(chǎn)群集上出現(xiàn)配置錯(cuò)誤,無(wú)法部署。而群集無(wú)法擴(kuò)展,無(wú)法獲得足夠的節(jié)點(diǎn)。雖然有足夠的配額,但是沒(méi)有足夠的節(jié)點(diǎn)來(lái)擴(kuò)展集群?!?/p>
事實(shí)證明,這種情況是微軟Azure北歐地區(qū)數(shù)據(jù)中心容量已滿。微軟公司像所有云計(jì)算提供商一樣,超額配置了其物理基礎(chǔ)設(shè)施,也就是他們可以向客戶提供虛擬機(jī)和CPU核心配額,因?yàn)樗麄冎揽蛻舨粫?huì)全部嘗試一次消耗掉所有容量,但卻遇到了意外情況。
歐洲各國(guó)由于疫情持續(xù)蔓延而頒布出行禁令,企業(yè)必須對(duì)要求全體員工在家工作迅速做出反應(yīng)。在發(fā)布出行禁令幾天之后,IT部門必須應(yīng)對(duì)對(duì)VDI和協(xié)作工具的空前高峰,并且他們大量地轉(zhuǎn)向云計(jì)算,畢竟,這就是采用云計(jì)算技術(shù)的目的。
MicrosoftWindows虛擬桌面(基于云計(jì)算的Windows10遠(yuǎn)程工作解決方案)最近非常及時(shí)地進(jìn)入了通用可用性,IT部門急于部署遠(yuǎn)程桌面解決方案。Microsoft Teams提供了可擴(kuò)展且無(wú)縫的協(xié)作和電話會(huì)議解決方案,但是所有會(huì)議突然都變成了在線會(huì)議,這一峰值需要滿足于某個(gè)地方的物理基礎(chǔ)設(shè)施。
其結(jié)果是Azure數(shù)據(jù)中心對(duì)計(jì)算的需求激增,并且無(wú)法滿足所有客戶的需求。除了無(wú)法部署新資源之外,一些客戶還難以啟動(dòng)現(xiàn)有資源,例如,一臺(tái)虛擬機(jī)會(huì)在一夜之間關(guān)閉并按計(jì)劃啟動(dòng),而他們無(wú)法在早上再次啟動(dòng)。
該分析師為此與負(fù)責(zé)此特定客戶的Microsoft客戶團(tuán)隊(duì)進(jìn)行了交談,他們表示,其容量管理團(tuán)隊(duì)已了解情況,并正在為醫(yī)療保健和緊急服務(wù)的客戶確定容量的優(yōu)先級(jí)。當(dāng)分析師得知有更多硬件在訂購(gòu)中時(shí),情況看起來(lái)很暗淡,但供應(yīng)鏈正在影響交貨時(shí)間。
幸運(yùn)的是,客戶經(jīng)理能夠在每日容量管理會(huì)議上代表客戶并提供必要容量的理由。還被告知微軟公司將20,000個(gè)vCPU工作或內(nèi)部工作負(fù)載移出了Azure北歐數(shù)據(jù)中心,并在一周后成功部署了HDInsight群集。
分析師目前正在為另一個(gè)客戶端制定災(zāi)難恢復(fù)(DR)策略,該策略基于在一個(gè)Azure區(qū)域中發(fā)生的服務(wù)(如果不太可能發(fā)生區(qū)域性故障)的故障轉(zhuǎn)移。這是一種基于微軟公司自己的架構(gòu)建議的標(biāo)準(zhǔn)模式。但是,如果整個(gè)Azure區(qū)域確實(shí)崩潰了,那么其余Azure區(qū)域中對(duì)資源的需求還會(huì)突然增加。在災(zāi)難恢復(fù)測(cè)試中可以實(shí)現(xiàn)的恢復(fù)時(shí)間目標(biāo)(RTO),實(shí)際上可能由于容量限制而在實(shí)際事件中無(wú)法實(shí)現(xiàn)。
在設(shè)計(jì)Azure災(zāi)難恢復(fù)策略時(shí),分析師為此提出的建議是:
盡管不能依靠配額來(lái)確保資源的可用性,但是需要確保在次要區(qū)域中增加配額準(zhǔn)備在發(fā)生故障轉(zhuǎn)移時(shí)與Microsoft容量管理團(tuán)隊(duì)交談以討論容量問(wèn)題利用微軟的客戶團(tuán)隊(duì),他們可以在發(fā)生故障轉(zhuǎn)移時(shí)幫助保護(hù)容量,并根據(jù)對(duì)客戶的影響和對(duì)微軟公司的聲譽(yù)影響來(lái)構(gòu)建其案例。了解在故障轉(zhuǎn)移到云計(jì)算提供商時(shí),客戶的恢復(fù)時(shí)間目標(biāo)(RTO)將處于優(yōu)秀狀態(tài)-最終您不擁有基礎(chǔ)架構(gòu),云提供商可能無(wú)法滿足需求??紤]采用多云方法,使客戶可以故障轉(zhuǎn)移到AWS、谷歌云平臺(tái)或其他云計(jì)算環(huán)境,甚至內(nèi)部部署環(huán)境。