午夜神马影院-日本天堂在线-国产精品777-奇米影视亚洲春色-天堂8中文-日本在线观看一区二区-天天干天天操天天插-国产精品女同-色骚综合-四川一级毛毛片-99在线看-国产极品久久-波多野吉衣毛片-婷婷在线综合-欧美视频成人-亚洲影视一区二区三区-国产精品久久久久久久一区二区-国产精品9191-污污免费观看-日本三区在线

NVIDIA新一代A100 GPU解析:AI訓(xùn)練速度提升20倍的秘密是什么?

NVIDIA新一代A100 GPU解析:AI訓(xùn)練速度提升20倍的秘密是什么?

宋華飛 / 2020-05-27 18:1873699

在前段時(shí)間的GPU技術(shù)大會(huì)(GTC 2020)上,NVIDIA正式發(fā)布了基于Ampere架構(gòu)的新一代GPU——NVIDIA A100。這款產(chǎn)品作為通用型工作負(fù)載加速器,瞄準(zhǔn)了如今最為熱門的AI領(lǐng)域。根據(jù)NVIDIA給出的數(shù)據(jù),其性能相比于前代產(chǎn)品提升了高達(dá)20倍,可用于AI訓(xùn)練和推理以及科學(xué)模擬、對(duì)話式AI、推薦系統(tǒng)、基因組學(xué)、高性能數(shù)據(jù)分析、地震建模和金融預(yù)測(cè)等場(chǎng)景。

image2.jpg

技術(shù)創(chuàng)新,NVIDIA A100 GPU性能突破的關(guān)鍵

NVIDIA A100擁有如此大幅度的提升,離不開Ampere架構(gòu)的加持,該GPU基于7nm制造工藝,包含了超過540億個(gè)晶體管,擁有6912個(gè)CUDA核心,成為了目前全球最大的7納米處理器。不止如此,新品還搭載了40GB HBM2內(nèi)存,具備1.6TB/s的內(nèi)存帶寬,F(xiàn)P32性能達(dá)到19.5萬億次/秒,并引入了具有TF32的第三代Tensor Core核心、結(jié)構(gòu)化稀疏 、多實(shí)例GPU( MIG)、第三代NVIDIA NVLink等眾多特性。

20200527173835.jpg

NVIDIA在此前的Volta架構(gòu)中首次引入了Tensor Core(張量單元)這一計(jì)算單元,使得當(dāng)時(shí)V100 GPU的浮點(diǎn)運(yùn)算性能得到了大幅提升,能夠更好地用于AI及深度學(xué)習(xí)應(yīng)用。在最新的Ampere架構(gòu)中,NVIDIA對(duì)Tensor Core進(jìn)行了再次升級(jí),使其變得更加靈活、快速且易于使用,甚至稱得上是性能上的一次飛躍。

20200527174124.jpg

新架構(gòu)引入了為AI開發(fā)的TF32,這是一種用于處理矩陣數(shù)學(xué)的新數(shù)值格式,而矩陣數(shù)學(xué)也被稱為張量運(yùn)算,是AI和部分HPC應(yīng)用主要使用的運(yùn)算。簡(jiǎn)單來說,TF32能加速AI訓(xùn)練計(jì)算,結(jié)合結(jié)構(gòu)稀疏性,就能使FP32精度下的AI性能顯著提高,可達(dá)到上代Volta架構(gòu)的20倍左右。NVIDIA表示,甚至無需修改現(xiàn)有程序的代碼就能獲得性能提升。此外,目前的Tensor Core核心同時(shí)支持了FP64精度的浮點(diǎn)運(yùn)算能力,相比于前代產(chǎn)品,可為HPC( 高性能計(jì)算)應(yīng)用提供更多的算力,相比之前提高了多達(dá)2.5倍。

nvidia-tensor-cores-chart-2c50-d.jpg

至于上文提到的結(jié)構(gòu)化稀疏,其實(shí)也是這次新架構(gòu)的亮點(diǎn)所在,目前A100中的Tensor Core可為稀疏模型應(yīng)用提供高達(dá)2倍的性能提升。該功能的加入讓GPU能夠更加高效地處理高維數(shù)據(jù),相當(dāng)于提高了AI學(xué)習(xí)性能。結(jié)構(gòu)化稀疏是一種高維數(shù)據(jù)的有效分析方法,具備特征簡(jiǎn)約、可解釋性強(qiáng)、計(jì)算方便等優(yōu)勢(shì),獲得了很多研發(fā)人員的關(guān)注,并在多個(gè)實(shí)際場(chǎng)景中得到了應(yīng)用。

nvidia-sparsity-diagram-2c50-d.jpg

Ampere架構(gòu)除了細(xì)節(jié)和算力方面的改進(jìn),新品還充分考慮到了應(yīng)用場(chǎng)景,提供了多實(shí)例GPU(MIG) ,通俗來講每個(gè)A100可以劃分成七個(gè)獨(dú)立的GPU,擁有了更高的靈活性。眾所周知,在數(shù)據(jù)中心等領(lǐng)域,CPU虛擬化是非常多見的技術(shù),可將內(nèi)核同時(shí)分配給不同用戶獨(dú)立使用,而MIG也有異曲同工之妙,如此一來不僅為不同規(guī)模的工作提供不同的計(jì)算力,以此實(shí)現(xiàn)最佳利用率和投資回報(bào)率的最大化,而且能在硬件級(jí)別上實(shí)現(xiàn)隔離,實(shí)現(xiàn)更高的安全性。

nvidia-multi-instance-gpu-diagram-2c50-d.jpg

至于Ampere架構(gòu)的第三代NVIDIA NVLink,可使GPU之間的連接速率增加至原來的兩倍,雙向帶寬提升至50GB/s,傳輸速率達(dá)到了600GB/s,是PCIe 4.0帶寬的10倍,并且每顆GPU可以實(shí)現(xiàn)對(duì)外12路連接。

nvidia-nvlink-nvswitch-2c50-d.jpg

A100助力,NVIDIA打造新一代AI系統(tǒng)

目前,基于Ampere GPU的NVIDIA DGX A100系統(tǒng)已經(jīng)發(fā)布,它是全球首款算力達(dá)到5 petaFLOPS AI系統(tǒng),內(nèi)置8個(gè)由NVIDIA NVLink互聯(lián)的A100 GPU、兩塊64核AMD CPU和1TB系統(tǒng)內(nèi)存,六個(gè)第二代NVSWITCH則提供了高達(dá) 4.8 TB/s雙向帶寬。網(wǎng)絡(luò)方面,系統(tǒng)內(nèi)置Mellanox ConnectX-6 VPI HDR InfiniBand和以太網(wǎng)適配器,其雙向帶寬峰值為 450Gb/s。

20200527173929-1.jpg

利用Mellanox HDR 200Gbps InfiniBand互連技術(shù),NVIDIA將140臺(tái)DGX A100系統(tǒng)結(jié)合在一起,成功構(gòu)建了DGX SuperPOD AI超級(jí)計(jì)算機(jī), AI計(jì)算能力高達(dá)700 Petaflops,用于公司內(nèi)部對(duì)話式AI、基因組學(xué)和自動(dòng)駕駛等領(lǐng)域的研究。值得一提的是,不只是AI、科研領(lǐng)域的用途,如今DGX A100組成的超級(jí)計(jì)算機(jī)還被用來對(duì)抗COVID-19,對(duì)抗疫做出了貢獻(xiàn)。

image3-1.jpg

不光是大規(guī)模的AI計(jì)算系統(tǒng),NVIDIA甚至將Ampere架構(gòu)帶到了如今熱點(diǎn)之一的邊緣計(jì)算,NVIDIA EGX A100 AI 處理引擎搭載全新GPU的同時(shí),集成有Mellanox ConnectX-6 Dx SmartNIC,不僅帶來優(yōu)秀的拓展性,而且更有出色的安全性。Mellanox SmartNIC具有安全分流功能,能以高達(dá) 200 Gb/s 的線速進(jìn)行解密,配合GPUDirect技術(shù)可將視頻幀直接傳輸?shù)紾PU顯存以進(jìn)行AI處理。

1111.jpg

相輔相成,大量軟件為A100 GPU優(yōu)化

當(dāng)然,除了硬件層面的優(yōu)勢(shì),實(shí)際應(yīng)用時(shí)也離不開軟件的支持。目前,NVIDIA對(duì)GPU加速應(yīng)用領(lǐng)域的軟件開發(fā)平臺(tái)CUDA進(jìn)行了更新,推出了CUDA 11,為Ampere架構(gòu)進(jìn)行了優(yōu)化,并更新了包括了50多個(gè)新版本CUDA-X庫。新版本可以完整支持基于Ampere架構(gòu)的GPU硬件以及第三代Tensor Core的眾多特性,并加入了多實(shí)例GPU虛擬化和GPU分區(qū)等功能。

20200527174053.jpg

與此同時(shí),NVIDIA還發(fā)布了HPC SDK、多模態(tài)對(duì)話式AI服務(wù)框架NVIDIA Jarvis、深度推薦應(yīng)用框架 NVIDIA Merlin等軟件。其中,HPC SDK包含編譯器和庫的全套綜合套件,是目前唯一可用于編程加速計(jì)算系統(tǒng)的全套集成SDK,開發(fā)者可通過它來編程整個(gè)HPC平臺(tái),從GPU基礎(chǔ)到CPU以及整體互聯(lián),同樣該套件也對(duì)Ampere架構(gòu)進(jìn)行了相應(yīng)優(yōu)化。

寫在最后:正如NVIDIA所說的那樣,如今由于云計(jì)算、AI等技術(shù)的出現(xiàn),正在推動(dòng)數(shù)據(jù)中心設(shè)計(jì)的結(jié)構(gòu)性轉(zhuǎn)變,純CPU服務(wù)器被搭載GPU加速計(jì)算的平臺(tái)所取代,未來隨著這些新技術(shù)的不斷普及,越來越多的行業(yè)、企業(yè)將會(huì)產(chǎn)生類似需求。NVIDIA早在3年之前就已經(jīng)意識(shí)到了這一趨勢(shì),推出了Volta架構(gòu),并將專為深度學(xué)習(xí)的Tensor Core帶入到了GPU之中,大幅提升了AI訓(xùn)練和推理性能,而到了目前Ampere架構(gòu)的第三代Tensor Core,更是帶來了巨大的性能飛躍,可將AI訓(xùn)練時(shí)間從數(shù)周縮短到幾小時(shí),顯著加快了推理速度,無疑助力推動(dòng)了整個(gè)AI行業(yè)的發(fā)展。

nvidia-a100-hero-bb460_420-d-0000.jpg

另一方面,此次推出的Ampere架構(gòu)、A100 GPU不只是提供了大幅度的性能增長(zhǎng),而且NVIDIA更是考慮到了各個(gè)方面,甚至兼顧了數(shù)據(jù)中心的成本問題。根據(jù)NVIDIA給出的數(shù)據(jù),一個(gè)由5臺(tái)DGX A100系統(tǒng)組成的機(jī)架,可代替一個(gè)包括了AI訓(xùn)練和推理基礎(chǔ)設(shè)施的數(shù)據(jù)中心,而且功耗僅是1/20,所占用的空間是1/25,成本只有1/10。因此,我們完全有理由相信,未來NVIDIA GPU以及AI技術(shù)一定會(huì)進(jìn)入到各行各業(yè),滲透到大家日常生活的方方面面。


發(fā)表評(píng)論注冊(cè)|