輝達(NVIDIA)在Supercomputing 2020大會期間發表NVIDIA HGX AI超級運算平台的A100 80GB GPU,其記憶體容量較前一代多出一倍,為研究人員與工程師大幅提升速度與效能,解鎖AI 與科學研究的潛能。而於 SC20 大會上發布的全球最高速超級電腦 TOP500 最新榜單中,有近七成的超級電腦都採用 NVIDIA 的技術,包括前十名中的八台。
A100搭載HBM2e技術,將A100 40GB GPU的高頻寬記憶體容量加倍至80GB,並提供每秒超過2 terabytes(TB)的記憶體頻寬。NVIDIA深度學習應用研究部門副總裁Bryan Catanzaro表示,若想獲得高效能運算(HPC)與人工智慧(AI)最頂尖的研究成果,就必須建立極龐大的模型,而這也代表將會需要比過去更多的記憶體容量和傳輸頻寬。A100 80GB GPU提供比六個月前推出的前一代GPU多一倍的記憶體容量,還突破每秒2TB的頻寬瓶頸,讓研究人員能克服全球最重要的科學與大數據研究難題。
包括Atos、戴爾科技(Dell Technologies)、富士通(Fujitsu)、技嘉(GIGABYTE)、慧與科技(Hewlett Packard Enterprise)、浪潮(Inspur)、聯想(Lenovo)、廣達(Quanta)和美超微(Supermicro)等系統大廠,預計於2021上半年開始提供整合四個或八個A100 80GB GPU基板的HGX A100。
建立於具備多元功能的A100 40GB,此次推出的80GB版本能因應龐大資料記憶體的需求,適用於更大範圍的應用。在AI訓練方面,例如DLRM這類含有大量表格以記載數十億名用戶及數十億項產品的推薦系統模型,由於A100 80GB能提供3倍的加速效果,因此企業能重新訓練這些模型,以提供高精準度的建議。
此外,A100 80GB還能訓練最龐大的模型,透過套用更多參數,導入到配備單一HGX的伺服器,例如GPT-2運用自然語言處理模型來執行超越人類的文字生成功能。如此一來就不再需要耗費大量時間建置資料或模型平行處理架構,而且這類技術在跨多個節點運行時速度過慢。憑藉多執行個體GPU(MIG)技術,A100可切分成7個GPU執行個體,而單一個體配有10GB的記憶體,構成安全無虞的硬體分隔區,並能為各種規模較小的作業負載提供最高的GPU資源使用率。對於像RNN-T這類自動語音辨識模型的AI推論,光靠一個A100 80GB MIG執行個體就能處理更大的批量,在生成環境中的推論吞吐量提高1.25倍。
在TB規模的零售業大數據分析基準方面,A100 80GB能產生最高兩倍的效能,企業則能透過這些隨時更新的資料即時做出關鍵決策。 在諸如氣象預報及量子化學等科學應用方面,A100 80GB能提供強大的加速效果。例如像Quantum Espresso這款材料模擬軟體,在單節點A100 80GB系統運行可達到接近兩倍的資料產出量提升。
A100 80GB融入了許多NVIDIA Ampere架構的功能,包含:
- 第3代Tensor Cores:採用新格式TF32,提供前一代Volta 20倍的AI吞吐量、2.5倍FP64高效能運算資料處理速度、20倍INT8 AI推論速度,並支援BF16資料格式。
- 更大、更快的HBM2e GPU記憶體:加倍的記憶體容量,和每秒超過2TB的記憶體頻寬。
- MIG技術:每個執行個體配置加倍的記憶體,提供最多7個MIG各10GB的記憶體容量。
- 結構化稀疏(Structural Sparsity):提供至多兩倍加速的推論稀疏模型。
- 第三代NVLink與NVSwitch:GPU與GPU之間的頻寬是前一代互連技術的兩倍,讓GPU在執行資料密集作業負載時的傳輸速度加快到每秒600GB。