技術(shù)
導(dǎo)讀:20世紀(jì)初的物理學(xué)家不會(huì)想到,懸浮在物理學(xué)大廈上的兩朵烏云會(huì)徹底顛覆整個(gè)物理學(xué)體系,馮·諾依曼在參與曼哈頓工程提出新架構(gòu)時(shí),也不會(huì)想到未來(lái)阻止芯片算力進(jìn)步的竟然不是芯片本身。
導(dǎo)覽:
馮·諾依曼結(jié)構(gòu)的誕生與局限
內(nèi)存墻,繞開(kāi)還是撞穿?
存算一體離不開(kāi)新式存儲(chǔ)方式
20世紀(jì)初的物理學(xué)家不會(huì)想到,懸浮在物理學(xué)大廈上的兩朵烏云會(huì)徹底顛覆整個(gè)物理學(xué)體系,馮·諾依曼在參與曼哈頓工程提出新架構(gòu)時(shí),也不會(huì)想到未來(lái)阻止芯片算力進(jìn)步的竟然不是芯片本身。
馮·諾依曼結(jié)構(gòu)的誕生與局限
1945年6月30日,美國(guó)正在秘密進(jìn)行曼哈頓計(jì)劃。馮·諾依曼作為該計(jì)劃的重要參與者與領(lǐng)導(dǎo)者,與另外兩位組內(nèi)科學(xué)家發(fā)表了一篇長(zhǎng)達(dá)101頁(yè)的報(bào)告,這就是計(jì)算機(jī)史上著名的“101頁(yè)報(bào)告”,也是現(xiàn)代計(jì)算機(jī)科學(xué)發(fā)展里程碑式的文獻(xiàn)。
這份文件基于當(dāng)時(shí)世界上第一臺(tái)計(jì)算機(jī)埃尼阿克(ENIAC)提出,詳細(xì)闡述了一種新型的計(jì)算機(jī)架構(gòu)類型。彼時(shí)的電腦雖然采用了世界上最先進(jìn)的電子技術(shù),但缺乏整理論指導(dǎo),用現(xiàn)在的話講就是“只堆料,不優(yōu)化”。此外,早期電腦的用途單一,若僅設(shè)計(jì)用于數(shù)學(xué)計(jì)算,那它就不能用來(lái)處理文字內(nèi)容,變更用途就需要對(duì)整體電路進(jìn)行重新設(shè)計(jì)。
馮·諾依曼精準(zhǔn)找出電腦運(yùn)行緩慢的關(guān)鍵:處理器雖然可以快速完成計(jì)算,但在計(jì)算間隙,需要進(jìn)行大量I/O步驟來(lái)保存計(jì)算的中間數(shù)據(jù),這極大的拖累了處理器的整體處理速度。他將計(jì)算機(jī)結(jié)構(gòu)重新調(diào)整,巧妙的將存儲(chǔ)與計(jì)算分離,通過(guò)內(nèi)部存儲(chǔ)器存儲(chǔ)程序,成功解決了當(dāng)時(shí)計(jì)算機(jī)存儲(chǔ)容量太小,運(yùn)算速度過(guò)慢的問(wèn)題。這種結(jié)構(gòu)也創(chuàng)造了一組指令集架構(gòu),可以將機(jī)器運(yùn)算轉(zhuǎn)換為一串串編程語(yǔ)言,讓此機(jī)器更有 “彈性”,不再需要頻繁更改電路。后來(lái)人們將這種結(jié)構(gòu)定義為馮·諾依曼結(jié)構(gòu)(Von Neumann architecture)。
馮·諾依曼結(jié)構(gòu)
圖源 | 百度百科
馮·諾依曼結(jié)構(gòu)也稱馮·紐曼模型(Von Neumann model)或普林斯頓結(jié)構(gòu)(Princeton architecture),它有以下幾個(gè)特點(diǎn):(1)以運(yùn)算單元為中心。(2)采用存儲(chǔ)程序原理。(3)存儲(chǔ)器是按地址訪問(wèn)、線性編址的空間(4)控制流由指令流產(chǎn)生。(5)指令由操作碼和地址碼組成。(6)數(shù)據(jù)以二進(jìn)制編碼。該結(jié)構(gòu)由運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備五個(gè)部分組成。簡(jiǎn)單來(lái)講,馮·諾依曼結(jié)構(gòu)將電路與程序分離,方便進(jìn)行后期程序重新調(diào)整;程序員僅通過(guò)內(nèi)部存儲(chǔ)器寫(xiě)入相關(guān)運(yùn)算命令,讓計(jì)算機(jī)可以快速執(zhí)行運(yùn)算操作;二進(jìn)制運(yùn)算也能大大加快計(jì)算機(jī)的整體速度。
這種“存算分離”的結(jié)構(gòu)也有自己的局限性:處理器與內(nèi)存間的數(shù)據(jù)交換量同內(nèi)存的整體儲(chǔ)存量相比太小了,隨著處理器技術(shù)的發(fā)展,這一比例更為懸殊。在一些特殊使用場(chǎng)景中(尤其是近年來(lái)火熱的AI計(jì)算領(lǐng)域),處理器需要經(jīng)常等待內(nèi)存的數(shù)據(jù)回傳,超高的延時(shí)嚴(yán)重拖慢了計(jì)算機(jī)整體的運(yùn)行效率,內(nèi)存性能逐漸成為限制計(jì)算機(jī)發(fā)展的關(guān)鍵。與此同時(shí),過(guò)高的信息交換量也帶來(lái)了嚴(yán)重的發(fā)熱問(wèn)題與功耗問(wèn)題。內(nèi)存墻、功耗墻與散熱墻成為阻攔計(jì)算機(jī)算力發(fā)展繞不開(kāi)的“三堵高墻”。
內(nèi)存墻,繞開(kāi)還是撞穿?
破解內(nèi)存墻問(wèn)題目前已經(jīng)成為工業(yè)界和學(xué)術(shù)界的焦點(diǎn)問(wèn)題。
繞開(kāi),意味著要放棄馮·諾依曼的“存算分離”結(jié)構(gòu),采用“存算一體”的結(jié)構(gòu)模式來(lái)規(guī)避內(nèi)存墻對(duì)運(yùn)算性能的限制。一些研究人員提出了一種以存儲(chǔ)器為中心的體系結(jié)構(gòu),稱為“智能存儲(chǔ)”。其核心思想是將部分或全部的計(jì)算移到存儲(chǔ)中,計(jì)算單元和存儲(chǔ)單元集成在同一個(gè)芯片,在存儲(chǔ)單元內(nèi)完成運(yùn)算,讓存儲(chǔ)單元具有計(jì)算能力。
“存算一體”結(jié)構(gòu)目前較成熟的方案有查存計(jì)算(Processing With Memory)或近存計(jì)算(Computing Near Memory),可拉進(jìn)內(nèi)存與處理器的距離來(lái)降低大規(guī)模數(shù)據(jù)交換延時(shí)。除了成熟方案,存內(nèi)計(jì)算(Computing In Memory)方案目前已成為各廠商的主要發(fā)力點(diǎn),它的計(jì)算操作由位于存儲(chǔ)芯片區(qū)域內(nèi)部的獨(dú)立計(jì)算單元完成,存儲(chǔ)和計(jì)算可以是模擬的也可以是數(shù)字的,一般用于算法固定的場(chǎng)景算法計(jì)算。存內(nèi)邏輯(Logic In Memory)屬于較新的架構(gòu),通過(guò)在內(nèi)部存儲(chǔ)中添加計(jì)算邏輯,直接在內(nèi)部存儲(chǔ)執(zhí)行數(shù)據(jù)計(jì)算,真正做到了“存算一體”。它的數(shù)據(jù)傳輸距離最短,同時(shí)能滿足大模型的計(jì)算精度要求,目前已有部分廠商已經(jīng)在該結(jié)構(gòu)上做出嘗試。
四種存算一體結(jié)構(gòu)
圖源 | 互聯(lián)網(wǎng)
撞穿,意味著要在馮·諾依曼結(jié)構(gòu)內(nèi)部做出技術(shù)革新,其核心問(wèn)題就是提升內(nèi)存處理速度與數(shù)據(jù)傳輸速度。提升傳輸速度需要在總線技術(shù)上發(fā)力,光互聯(lián)技術(shù)采用波導(dǎo)方式傳輸數(shù)據(jù),相比硅晶內(nèi)部的載流子傳輸,具有損耗低、速度快、延時(shí)小的優(yōu)點(diǎn),可實(shí)現(xiàn)數(shù)據(jù)的高速傳輸,減少功耗。不過(guò),面對(duì)內(nèi)存墻無(wú)論是繞開(kāi)還是撞穿,終歸還是要降低內(nèi)存處理的延時(shí),提升整體計(jì)算速度,因此降低內(nèi)存本身延時(shí)也很關(guān)鍵。
存算一體
離不開(kāi)新式存儲(chǔ)方式
馮·諾依曼結(jié)構(gòu)中,DRAM作為一種能夠快速反應(yīng)的易失性存儲(chǔ)介質(zhì),是作為處理器一級(jí)內(nèi)存的不二之選。DRAM基于場(chǎng)效應(yīng)管工作,通過(guò)電流控制MOS管開(kāi)閉來(lái)控制電荷進(jìn)出晶體管,晶體管中的電荷多與少代表了1和0,即每個(gè)存儲(chǔ)單位可以儲(chǔ)存1Bit數(shù)據(jù)。當(dāng)電流消失,晶體管就會(huì)釋放所有電荷,因此這種存儲(chǔ)介質(zhì)被稱為易失性存儲(chǔ)介質(zhì)。目前DRAM提升效率的主要方式就是增加工作頻率,2666MHz、3200MHz、3600MHz等參數(shù)就是內(nèi)存的工作頻率。但隨著半導(dǎo)體工藝尺寸逐漸減小,傳統(tǒng)的基于互補(bǔ)金屬氧化物半導(dǎo)體工藝的緩存和主存遭遇了性能瓶頸,量子隧穿問(wèn)題時(shí)刻困擾著內(nèi)存工藝的進(jìn)步,延時(shí)也無(wú)法進(jìn)一步降低。
近年來(lái),各類“存算一體”芯片架構(gòu)的誕生,讓一部分延時(shí)更低的新式存儲(chǔ)方式走進(jìn)人們視線。其中PCRAM相變儲(chǔ)存器、ReRAM電阻式存儲(chǔ)器、MRAM磁變/磁阻存儲(chǔ)器以及鐵電存儲(chǔ)器FRAM的出現(xiàn)為破解內(nèi)存墻提供了新思路。
PCRAM又稱PCM、OUM(Ovonic UnifiedMemory)和 CRAM(Chalcogenide Random AccessMemory),從名字可以看出,它利用相變材料作為儲(chǔ)存介質(zhì)。PCRAM在工作時(shí)通過(guò)對(duì)相變材料施加不同時(shí)長(zhǎng)的電脈沖,使相變材料在不同程度的電流熱效應(yīng)下分別呈現(xiàn)出不同的結(jié)晶狀態(tài),并在兩種狀態(tài)之間快速切換。相變材料在非晶相態(tài)時(shí)呈現(xiàn)出半導(dǎo)體特性,具有較高的電阻值;在結(jié)晶相態(tài)時(shí)呈現(xiàn)出半金屬特性,具有較低的電阻值。因此,可以分別通過(guò)相變材料在非晶相態(tài)和結(jié)晶相態(tài)時(shí)呈現(xiàn)出的不同電阻特性來(lái)分別表示需要存儲(chǔ)的數(shù)據(jù)。PCRAM具有較好的微縮能力,目前已經(jīng)可以做到20nm工藝,因此其儲(chǔ)存密度較DRAM更高。此外,由于相變材料可以在晶體態(tài)和非晶體態(tài)之間無(wú)極變換,通過(guò)更加精密的電阻探測(cè)方式,可以在單一存儲(chǔ)單元內(nèi)存儲(chǔ)多Bit數(shù)據(jù),因此PCRAM未來(lái)開(kāi)發(fā)潛力巨大。
PCRAM 圖源 |百度百科
ReRAM,也稱RRAM,電阻式存儲(chǔ)器,是以非導(dǎo)性材料(金屬氧化物)的電阻在外加電場(chǎng)作用下,在高阻態(tài)和低阻態(tài)之間實(shí)現(xiàn)可逆轉(zhuǎn)換的非易失性存儲(chǔ)器。ReRAM在工作時(shí)可以對(duì)金屬氧化物施加電壓,使材料的電阻在高阻態(tài)和低阻態(tài)間發(fā)生相應(yīng)變化,并利用這種性質(zhì)儲(chǔ)存各種信息。與PCRAM原理類似,ReRAM也能在單個(gè)存儲(chǔ)單元中存儲(chǔ)多Bit數(shù)據(jù)。與DRAM相比,RRAM不僅滿足高讀寫(xiě)速度和存儲(chǔ)密度的要求,同時(shí)延遲更低,可滿足未來(lái)智能駕駛高實(shí)時(shí)數(shù)據(jù)吞吐量。
ReRAM 圖源 |Objective Analysis
MRAM(Magnetoresistive Random Access Memory)是一種利用磁性工作的非易失性隨機(jī)存儲(chǔ)器。它和我們熟悉的“磁帶”不同,MRAM的磁性并不依賴介質(zhì)表面的磁粉,而是基于兩個(gè)鐵磁層磁化狀態(tài)來(lái)存儲(chǔ)信息,其核心元件就是磁性隧道結(jié) (magnetic tunnel junction,MTJ),當(dāng)電流流過(guò)MTJ時(shí)它會(huì)因?yàn)榇鎯?chǔ)信息的不同而表現(xiàn)出不同的阻值。當(dāng)下的 MRAM 家族成員包括了三類:自旋轉(zhuǎn)移扭矩 (spin-transfer torque :STT)、自旋軌道扭矩 (spin-orbit torque:SOT)、電壓控制(VCMA-和 VG-SOT)。
FRAM(FRAM,ferroelectric RAM)鐵電存儲(chǔ)器也是一種特殊工藝的非易失性的存儲(chǔ)器,采用人工合成的鉛鋯鈦(PZT) 材料形成存儲(chǔ)器結(jié)晶體存儲(chǔ)數(shù)據(jù)。當(dāng)一個(gè)電場(chǎng)被施加到鐵晶體管時(shí),中心原子順著電場(chǎng)停在低能量位置處,大量中心原子在晶體單胞中移動(dòng)最終形成極化電荷,然后外界通過(guò)判斷鐵晶體管內(nèi)的電荷高低來(lái)讀取數(shù)據(jù)。與DRAM相比,F(xiàn)RAM在速度與價(jià)格方面都具有較大優(yōu)勢(shì)。
FRAM
圖源 |Objective Analysis
值得注意的是,無(wú)論是哪種新式存儲(chǔ)方式,目前都存在部分局限性。由于存算一體架構(gòu)在片內(nèi)計(jì)算基本都屬于模擬計(jì)算,計(jì)算精度完全取決于工藝精度,更不能計(jì)算浮點(diǎn)運(yùn)算,因此新式存儲(chǔ)方式搭配存算一體架構(gòu)僅適合應(yīng)用于需要大規(guī)模存儲(chǔ)的場(chǎng)景中。此外新式存儲(chǔ)往往專注于降低延時(shí)與持久儲(chǔ)存,往往還不具備Flash、DRAM等成熟工藝的可靠性,還需要繼續(xù)發(fā)展并完善。
總結(jié)
隨著摩爾定律逼近極限,芯片算力提升已經(jīng)達(dá)到瓶頸,尤其是在需要大規(guī)模存儲(chǔ)的計(jì)算場(chǎng)景中,處理器與內(nèi)存的數(shù)據(jù)交換上限逐漸成為新瓶頸。目前存算一體架構(gòu)搭配延時(shí)更低的新存儲(chǔ)方式成為破解內(nèi)存墻的關(guān)鍵。
參考資料:
存算一體/感存算一體芯片技術(shù)原理
https://mp.weixin.qq.com/s/SChfWoEWSFoeQSW3kjW17w
百度百科:PCRAM、FRAM、ReRAM、MRAM
https://baike.baidu.com/item/MRAM/2090077
https://baike.baidu.com/item/PCRAM/280581
基于硅光子的片上光互連技術(shù)研究
https://www.docin.com/p-1647619053.html