NVIDIA英偉達H100人工智能服務器為各類數(shù)據(jù)中心提供*的性能、可擴展性和安全性。
加速計算的數(shù)量級飛躍
通過 NVIDIA H100 Tensor Core GPU,在每個工作負載中實現(xiàn)*性能、可擴展性和安全性。使用 NVIDIA? NVLink? Switch 系統(tǒng),可連接多達 256 個 H100 來加速百億億級 (Exascale) 工作負載,另外可通過的 Transformer 引擎來處理萬億參數(shù)語言模型。與上一代產(chǎn)品相比,H100 的綜合技術創(chuàng)新可以將大型語言模型的速度提高 30 倍,從而提供業(yè)界*的對話式 AI。
準備好迎接企業(yè) AI 了嗎?
企業(yè)采用 AI 現(xiàn)已成為主流,企業(yè)組織需要端到端的 AI 就緒型基礎架構,加快自身邁向新時代的步伐。
適用于主流服務器的 H100 隨附五年期 NVIDIA AI Enterprise 軟件套件訂閱(包括企業(yè)支持),能夠以強大的性能簡化 AI 的采用。這可確保組織能夠訪問構建 H100 加速的 AI 工作流所需的 AI 框架和工具,例如 AI 聊天機器人、引擎和視覺 AI 等。
NVIDIA英偉達H100人工智能服務器GPU算力租賃配置參數(shù):
項目 | 標準配置 |
框架 | 8U 機架式服務器 |
處理器 | 2 顆至強 Platinum 8468 48 核/3.8GHz 主頻/105MB 緩存 |
內(nèi)存 | DDR5 4800MHz ECC 內(nèi)存容量 512GB |
GPU | NVIDIA HGX H100 GPU 模組 |
系統(tǒng)硬盤 | M.2 NVMe PCIe 接口 2TB SSD |
數(shù)據(jù)硬盤 | 2*10TB 企業(yè)級 SATA 硬盤 RAID 10 陣列配置 |
InfiniBand 網(wǎng)絡 | 200G/雙端口/QSFP56 |
Ethernet 網(wǎng)卡 | OCP 網(wǎng)卡/雙電口/10G |
PICE 插槽 | 9 個 PCIe 5.0 擴展插槽 |
電源 | 6*3000W,2*2700W,AC220 輸入 |
風扇 | 10 個 54V 風扇組 |
操作系統(tǒng) | Windows Server/RedHat Enterprise Linux/SUSE Linux Enterprise Server/CentOS/Ubuntu/Vmware EXSi |
工作溫度 | +5°~+35° |
其他接口 | 機箱后部:1 個 RJ45 管理接口,2 個 USB 3.0,1 個 VGA 機箱前部:2 個 USB 3.0,1 個 VGA |
整機凈重 | 120KG(以實際配置為準) |
NVIDIA H100 TENSOR CORE GPU 規(guī)格 (SXM4 和 PCIE 外形規(guī)格)
外形規(guī)格 | H100 SXM4 | H100 PCIE |
FP64 | 34 teraFLOPS | 26 teraFLOPS |
FP64 Tensor Core | 67 teraFLOPS | 51 teraFLOPS |
FP32 | 67 teraFLOPS | 51 teraFLOPS |
TF32 Tensor Core | 989 teraFLOPS* | 756teraFLOPS* |
BFLOAT16 Tensor Core | 1979 teraFLOPS* | 1,513 teraFLOPS* |
FP16 Tensor Core | 1979 teraFLOPS* | 1,513 teraFLOPS* |
FP8 Tensor Core | 3958 teraFLOPS* | 3026 teraFLOPS* |
INT8 Tensor Core | 3958 TOPS* | 3026 TOPS* |
GPU 顯存 | 80GB | 80GB |
GPU 顯存帶寬 | 3.35TB/s | 2TB/s |
解碼器 | 7 NVDEC/7 JPEG | 7 NVDEC/7 JPEG |
*熱設計功率 (TDP) | 高達 700 瓦(可配置) | 300-350 瓦(可配置) |
多實例 GPU | *多 7 個 MIG @每個 10GB | |
外形規(guī)格 | SXM | PCIe雙插槽風冷式 |
安全地加速從企業(yè)級到百億億次級規(guī)模的工作負載
實時深度學推理:AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡解決范圍同樣廣泛的一系列商業(yè)挑戰(zhàn)。*的 AI 推理加速器不僅要提供非凡性能,還要利用通用性加速這些神經(jīng)網(wǎng)絡。
H100 進一步擴展了 NVIDIA 在推理領域的市場*地位,其多項*技術可將推理速度提高 30 倍,并提供低的延遲。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可結合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時仍能保持大型語言模型的準確性。
大模型的 AI 推理性能提升高達 30 倍
HPC 應用的性能提升高達 7 倍
百億億次級高性能計算:NVIDIA 數(shù)據(jù)中心平臺性能持續(xù)提升,越摩爾定律。H100 的全新突破性 AI 性能進一步加強了 HPC+AI 的力量,加速科學家和研究人員的探索,讓他們?nèi)硇耐度牍ぷ?,解決世界面臨的重大挑戰(zhàn)。
H100 使雙精度 Tensor Core 的每秒浮點運算 (FLOPS) 提升 3 倍,為 HPC 提供 60 teraFLOPS 的 FP64 浮點運算。融合 AI 的高性能計算應用可以利用 H100 的 TF32 精度實現(xiàn) 1 petaFLOP 的吞吐量,從而在不更改代碼的情況下,實現(xiàn)單精度矩陣乘法運算。
H100 還采用 DPX 指令,其性能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在動態(tài)編程算法(例如,用于 DNA 序列比對 Smith-Waterman)上比僅使用傳統(tǒng)雙路 CPU 的服務器快 40 倍。
加速數(shù)據(jù)分析:在 AI 應用開發(fā)過程中,數(shù)據(jù)分析通常會消耗大部分時間。原因在于,大型數(shù)據(jù)集分散在多臺服務器上,由僅配備商用 CPU 服務器組成橫向擴展式的解決方案缺乏可擴展的計算性能,從而陷入困境。
搭載 H100 的加速服務器可以提供相應的計算能力,并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴展性,憑借高性能應對數(shù)據(jù)分析以及通過擴展支持龐大的數(shù)據(jù)集。通過結合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺能夠以*的性能和效率加速這些大型工作負載。
為企業(yè)提高資源利用率:IT 經(jīng)理設法更大限度地提高數(shù)據(jù)中心計算資源的利用率(峰值和平均值)。他們通常會通過動態(tài)重新配置來合理調(diào)整計算資源,從而滿足正在處理的工作負載的需求。
H100 中的第二代多實例 GPU (MIG) 技術通過安全地將每個 GPU 分為 7 個獨立實例,更大限度地提高每個 GPU 的利用率。憑借機密計算支持,H100 可實現(xiàn)端到端多租戶的安全使用,非常適合云服務提供商 (CSP) 環(huán)境。
使用支持 MIG 技術的 H100,基礎架構管理員可對其 GPU 加速的基礎架構作標準化處理,同時能夠靈活地為 GPU 資源配置更精細的粒度,從而安全地為開發(fā)者提供正確的加速計算量,并確保其所有 GPU 資源得到充分利用。
內(nèi)置機密計算:當今的機密計算解決方案基于 CPU,對于 AI 和 HPC 等計算密集型工作負載來說,這些解決方案遠遠無法滿足需求。NVIDIA 機密計算是 NVIDIA Hopper? 架構的內(nèi)置安全功能,該功能使 H100 成為 NVIDIA 率先推出的具有機密計算功能的加速器。用戶可以在獲取 H100 GPU *加速功能的同時,保護使用中的數(shù)據(jù)和應用的機密性和完整性。它創(chuàng)建了基于硬件的可信執(zhí)行環(huán)境 (TEE),用于保護并隔離在單個 H100 GPU、節(jié)點內(nèi)多個 H100 GPU 或單個 MIG 實例上運行的整個工作負載。在 TEE 內(nèi),GPU 加速應用的運行可以保持不變,且不必對其進行分區(qū)。用戶可以將適用于 AI 和 HPC 的 NVIDIA 軟件的強大功能與 NVIDIA 機密計算提供的硬件信任根的安全性相結合。
為大規(guī)模 AI 和高性能計算提供*的性能:Hopper Tensor Core GPU 將為 NVIDIA Grace Hopper CPU+GPU 架構提供支持,該架構專為 TB 級加速計算而構建,可為大型 AI 和 HPC 提供 10 倍的性能。NVIDIA Grace CPU 利用 Arm? 架構的靈活性來創(chuàng)建 CPU 和服務器架構,該架構是專門針對加速計算而從頭開始設計的。Hopper GPU 與 Grace CPU 搭配,使用 NVIDIA 快速的芯片間互連技術,可提供 900GB/s 的帶寬,比 PCIe 5.0 快 7 倍。與當今運行*快的服務器相比,這種創(chuàng)新設計將 GPU 的聚合系統(tǒng)顯存帶寬提高 30 倍,并且會將運行數(shù)萬億字節(jié)數(shù)據(jù)的應用性能提高 10 倍。
其他推薦產(chǎn)品
NVIDIA英偉達H100人工智能服務器 GPU為各類數(shù)據(jù)中心提供*的性能、可擴展性