NVIDIA英偉達(dá)A100人工智能服務(wù)器 GPU 在各種規(guī)模上實(shí)現(xiàn)*的加速
適用于各種工作負(fù)載的強(qiáng)大計(jì)算平臺(tái)
NVIDIA A100 Tensor Core GPU 可在各個(gè)規(guī)模下為 AI、數(shù)據(jù)分析和高性能計(jì)算( HPC) 應(yīng)用提供*的加速性能,為全球的 高性能彈性數(shù)據(jù)中心提供強(qiáng)勁助力。作為 NVIDIA 數(shù)據(jù)中心平臺(tái)的引擎,與前一代 NVIDIA Volta? 相比,A100 可使性能提升高達(dá) 20 倍。A100 可高效擴(kuò)展,也可借助多實(shí)例 GPU( MIG) 技術(shù)劃分 為 7 個(gè)獨(dú)立的 GPU 實(shí)例,從而提供統(tǒng)一的平臺(tái),助力彈性數(shù)據(jù)中心根據(jù)不斷變化的工作負(fù)載需求動(dòng)態(tài)進(jìn)行調(diào)整。
NVIDIA A100 Tensor Core 技術(shù)支持廣泛的數(shù)學(xué)精度,可針對(duì)每個(gè)工作負(fù)載提供單個(gè)加速器。*一代 A100 80GB 將 GPU 顯存 加倍,提供 2TB/s 的全球快顯存帶寬,可加速處理大型模型和海量數(shù)據(jù)集。
A100 是完整 NVIDIA 數(shù)據(jù)中心解決方案的一部分,該解決方案由硬件、網(wǎng)絡(luò)、軟件、庫(kù)以及 NGC? 目錄中經(jīng)優(yōu)化的 AI 模型和 應(yīng)用等疊加而成。作為適用于數(shù)據(jù)中心且功能強(qiáng)大的端到端 AI 和 HPC 平臺(tái),A100 可助力研究人員獲得真實(shí)的結(jié)果,并能將解決方案大規(guī)模部署到生產(chǎn)環(huán)境中。
NVIDIA英偉達(dá)A100人工智能服務(wù)器GPU算力租賃產(chǎn)品規(guī)格
項(xiàng)目 | 標(biāo)準(zhǔn)配置 | 擴(kuò)展配置 | |
1 | 準(zhǔn)系統(tǒng) | 雙路4U機(jī)架式 | |
2 | 處理器 | 英特爾 Xeon ? Gold 6330 處理器 | 英特爾 Xeon? Platinum 8380 處理器 |
3 | 內(nèi)存 | DDR4/RDIMM/3200MHz/64GB,容量1TB | *內(nèi)存容量4TB |
4 | 芯片組 | Intel? C621A | |
5 | GPU | 8張A100 80GB PCIe顯卡 | 8張雙寬或16張單寬PCIe NVIDIA GPU卡 |
6 | 網(wǎng)絡(luò)通信 | 以太網(wǎng)卡,2路10G電口 | |
7 | InfiniBand(IB)網(wǎng)卡,2路200G QSFP56口 | ||
8 | 硬盤(pán) | 系統(tǒng)盤(pán),M.2 SATA SSD,容量1TB | 前面板支持24塊2.5或12塊3.5寸 SAS/SATA硬盤(pán) |
9 | 數(shù)據(jù)盤(pán),4TB*4/SATA,容量16TB | ||
10 | 電源 | 單模組2000W,2+2冗余配置 | 單模組3KW,計(jì)12KW |
9 | 外形尺寸 | 寬度480mm,高度180mm,深度830mm | |
10 | 工作溫度 | 5~35℃ | |
11 | 重量 | 80kg |
NVIDIA A100 TENSOR CORE GPU 規(guī)格 (SXM4 和 PCIE 外形規(guī)格)
A100 80GB PCIe | A100 80GB SXM | ||
FP64 | 9.7 TFLOPS | ||
FP64 Tensor Core | 19.5 TFLOPS | ||
FP32 | 19.5 TFLOPS | ||
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | ||
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | ||
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | ||
INT8 Tensor Core | 624 TOPS| 1248 TOPS* | ||
GPU 顯存 | 80GB HBM2e | 80GB HBM2e | |
GPU 顯存帶寬 | 1935GB/s | 2039GB/s | |
*熱設(shè)計(jì)功耗 (TDP) | 300 瓦 | 400 瓦*** | |
多實(shí)例 GPU | *多 7 個(gè) MIG 每個(gè) 10GB | *多 7 個(gè) MIG 每個(gè) 10GB | |
外形規(guī)格 | PCIe 雙插槽風(fēng)冷式或單插槽液冷式 | SXM | |
互連技術(shù) | 搭載 2 個(gè) GPU 的 NVIDIA? NVLink? 橋接器:600GB/s** PCIe 4.0 :64GB/s | NVLink :600GB/s PCIe 4.0 :64GB/s | |
服務(wù)器選項(xiàng) | 搭載 1 至 8 個(gè) GPU 的合作伙伴系統(tǒng)和 NVIDIA 系統(tǒng)( NVIDIA-Certified Systems?) | 搭載 4 個(gè)、8 個(gè)或 16 個(gè) GPU 的 NVIDIA HGX? A100 合作伙伴系統(tǒng)和 NVIDIA 系統(tǒng) 搭載 8 個(gè) GPU 的 NVIDIA DGX? A100 | |
* 采用稀疏技術(shù) ** SXM4 GPU 通過(guò) HGX A100 服務(wù)器主板連接;PCIe GPU 通過(guò) NVLink 橋接器可橋接多達(dá)兩個(gè) GPU *** 400 瓦 TDP(適用于標(biāo)準(zhǔn)配置)。HGX A100-80 GB 自定義散熱解決方案( CTS) SKU 可 支持高達(dá) 500 瓦的 TDP | |||
跨工作負(fù)載的*性能
針對(duì)大型模型提供高達(dá) 3 倍的 AI 訓(xùn)練速度;
相較于 CPU 提供高達(dá) 249 倍的 AI 推理性能;
相較于 A100 40GB 提供高達(dá) 1.25 倍的 AI 推理性能;
為 HPC 應(yīng)用提供高達(dá) 1.8 倍的性能;
四年來(lái) HPC 性能提升 11 倍;
相較于 A100 40GB,在大數(shù)據(jù)分析基準(zhǔn)測(cè)試中速度提升 2 倍;
突破性的創(chuàng)新
NVIDIA AMPERE 架構(gòu):無(wú)論是使用 MIG 將 A100 GPU 分割為較小的實(shí)例,還是使用 NVLink 連接多個(gè) GPU 來(lái)加速 大規(guī)模工作負(fù)載,A100 均可輕松滿足不同規(guī)模的加速需求,從小型作業(yè)到大型多節(jié)點(diǎn)工作負(fù)載無(wú)一例外。A100 功能全面,這意味著 IT 經(jīng)理可以全天候地充分利用數(shù)據(jù)中心內(nèi)的每個(gè) GPU。
第三代 TENSOR CORE 技術(shù):NVIDIA A100 的深度學(xué) 運(yùn)算性能可達(dá) 312 teraFLOPS (TFLOPS)。其深度學(xué)訓(xùn)練的 Tensor 每秒浮點(diǎn)運(yùn)算次數(shù)( FLOPS) 和推理 的 Tensor 每秒萬(wàn)億次運(yùn)算次數(shù)( TOPS) 皆為 NVIDIA Volta? GPU 的 20 倍。
新一代 NVLINK:A100 中采用的 NVIDIA NVLink 可提供兩倍于上一代的吞吐量。與 NVIDIA NVSwitch? 結(jié)合使用時(shí),此技術(shù)可將多達(dá) 16 個(gè) A100 GPU 互連,并將速度提升至 600GB/s,從而在單個(gè)服務(wù)器上實(shí)現(xiàn)*的應(yīng)用性能。NVLink 技術(shù)可應(yīng)用在 A100 中:SXM GPU 通過(guò) HGX A100 服務(wù)器主板連接,PCIe GPU 通過(guò) NVLink 橋接器可橋接多達(dá)兩塊 GPU。
多實(shí)例 GPU( MIG) 技術(shù):一個(gè) A100 GPU *多可劃分為 7 個(gè) GPU 實(shí)例,這些實(shí)例在硬件級(jí)別完全獨(dú)立,并獨(dú)自擁有高 帶寬顯存、緩存和計(jì)算核心。借助 MIG, 開(kāi)發(fā)者可為其所有應(yīng)用實(shí)現(xiàn)驚人加速,IT 管理員也可為每個(gè)作業(yè)提供符合其規(guī)模的 GPU 加速,進(jìn)而優(yōu)化 GPU 利用率,并讓每個(gè)用戶和 應(yīng)用都能使用 GPU 實(shí)例。
高帶寬顯存( HBM2E):憑借 80GB 的高帶寬顯存(HBM2e),A100 提供過(guò) 2TB/s 的快 GPU 顯存帶寬, 并將動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器( DRAM) 的利用效率 提高至 95%。A100 提供的顯存帶寬是上一代 產(chǎn)品的 1.7 倍。
結(jié)構(gòu)化稀疏:AI 網(wǎng)絡(luò)擁有數(shù)百萬(wàn)至數(shù)十億個(gè) 參數(shù)。實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)并非要使用所有參數(shù),而且我們還可將某些參數(shù)轉(zhuǎn)換為零,以在無(wú)損準(zhǔn)確性的前提下使 模型變得“稀疏”。A100 中的 Tensor Core 可為稀疏模型提供高達(dá) 2 倍的性能提升。稀疏功能不僅更容易使 AI 推理受益,同時(shí)還能提升 模型的訓(xùn)練性能。
NVIDIA A100 Tensor Core GPU 是 NVIDIA 數(shù)據(jù)中心平臺(tái)的旗艦產(chǎn)品,可用于深度學(xué)、高性能計(jì)算 (HPC) 和數(shù)據(jù)分析。該平臺(tái)可為 2000 余款應(yīng)用和各大深度學(xué)框架提供加速。A100 適用于桌面、服務(wù)器以及云服務(wù),不僅能顯著提升性能,更可以節(jié)約成本。
其他推薦產(chǎn)品
NVIDIA英偉達(dá)A100人工智能服務(wù)器 GPU 在各種規(guī)模上實(shí)現(xiàn)*的加速
適用于各種工作負(fù)載的強(qiáng)大計(jì)算平臺(tái)