Azure ND H100 v5虛擬機器使用Nvidia H100 Tensor Core GPU,無論是在人工智慧模型的訓練還是推理運算,都可以提供比上一代ND A100 v4虛擬機器高上數倍的效能
微軟推出最新用於大規模人工智慧運算的虛擬機器系列ND H100 v5,該虛擬機器系列採用Nvidia新的資料中心等級GPU H100,用戶可以按需配置8到數千個GPU,這些GPU可透過NVSwitch和NVLink 4.0技術相連,可提供更高的人工智慧運算效能。
ND H100 v5所使用的H100,是Nvidia去年剛發布目前該公司最先進的資料中心GPU,無論是在高效能運算、人工智慧模型推理還是訓練,效能都較上一代ND A100 v4虛擬機器,所使用的Nvidia A100 Tensor Core GPU高上數倍,H100模型訓練可比A100快達9倍,模型推理甚至可快達30倍。
除了製程的進展之外,H100特別之處在於內建了一個稱為Transformer Engine的加速運算引擎,能夠加速以Transformer神經網路架構為基礎的人工智慧模型,像是GPT-3.5或是RoBERTa等預訓練模型。同時H100還支援機密運算,Nvidia將原本僅能在CPU中提供的機密運算資料保護擴展到GPU上,供用戶安全地執行企業專屬模型,避免人工智慧模型未經授權存取。
ND H100 v5中H100 Tensor Core GPU以NVSwitch和NVLink 4.0互連,每個虛擬機器的8個本地GPU,擁有3.6TB/s的對分頻寬(Bisectional Bandwidth),而GPU則是以PCIE 5.0和主機相連,每個GPU頻寬為64GB/s。
ND H100 v5使用第4代Xeon Scalable處理器,並且具有DDR5記憶體,使用非阻塞廣樹(Fat-Tree)網路,每個虛擬機器具有3.2Tb/s頻寬,而每個GPU則有400 Gb/s網路頻寬。第4代Xeon Scalable處理器是英特爾在2023年初才剛推出的產品,採用10奈米製程,內建高階矩陣擴充(AMX)加速器,能夠提高人工智慧工作負載的處理效能。
.
Leave a Review