TOP500超級電腦採用NVIDIA技術以加速節能 - 產業動態 - 新電子科技雜誌 Micro-electronics


熱門關鍵字:電源模組 | SiC | 機器視覺 | GaN | 5G

訂閱電子報

立刻輸入Email,獲取最新的資訊:


收藏功能:
分享報新知:
其他功能:

TOP500超級電腦採用NVIDIA技術以加速節能

發布日期:2020/07/07 關鍵字:NVIDIA超級電腦GPUAIHPC

最新的TOP500超級電腦排行榜描繪出現代科學運算領域的發展前景,利用人工智慧 (AI) 與資料分析技術來擴大這個領域,並透過 NVIDIA 的技術來加快其運算速度。

目前全球運算速度前十名的超級電腦中,有八套包括分布在美國、歐洲及中國最強大的超級電腦系統,都採用了 NVIDIA GPU 或 InfiniBand 網路技術,或是兩者兼備。

在最新的 TOP500 超級電腦排行榜中,有三分之二 (333套) 的超級電腦均採用 NVIDIA 的技術(現已完全收購 Mellanox);而在 2017 年 6 月的排行榜上,合計只有 203 套的超級電腦採用當時還是獨立兩間公司的技術,只占總數不到一半的數量,相較起來目前的數量可謂大幅增加。

榜單中有近四分之三 (73%) 的全新 InfiniBand 系統採用了 NVIDIA Mellanox HDR 200G InfiniBand,展現出迅速採用最新智慧互連資料傳輸速度的接受度。

自 2019 年 11 月的榜單以來,使用 HDR InfiniBand 的 TOP500 超級電腦數量幾乎增加了一倍。總體而言,榜上有 141 套超級電腦採用 InfiniBand 的技術,自 2019年 6 月以來成長了 12%。

NVIDIA Mellanox InfiniBand 與乙太網網路連接了 TOP500 超級電腦中的305套系統 (61%),其中包含 141 套使用 InfiniBand 的系統與 164 套使用乙太網路的系統 (63%)。

在能源使用效率方面,使用 NVIDIA GPU 的系統從眾多系統中脫穎而出,能源使用效率平均較未使用 NVIDIA GPU 的系統提升 2.8 倍 (測量單位為每秒十億次浮點運算/ 瓦)。

由此可知在 TOP500 排行榜前25名的超級電腦中,有二十套系統採用 NVIDIA GPU 的原因。

這種節能效率最好的例子就是 NVIDIA 內部研究叢集的最新生力軍 Selene (上圖)。該系統在最新的 Green500 排行榜中奪得亞軍,並且在 Linpack 基準測試中以 27.5 petaflops 的成績,位列整體 TOP500 排行榜的第七名。

每瓦20.5 gigaflops 的表現讓 Selene 與 Green500 榜單上榜首的表現相差無幾,而 Green500 榜單的榜首為一套效能排名為第 394 名、體積較小的系統奪得。

在前100名的系統中,Selene 是唯一一套突破每瓦 20 gigaflops 門檻的系統,同時也是全球最強大工業超級電腦名單上的第二名,僅次於義大利能源巨頭 Eni S.p.A. 集團奪下第六名的工業系統,該系統同樣採用 NVIDIA 的 GPU。

在節能省電效率方面,Selene 較未使用 NVIDIA GPU 的 TOP500 系統平均高出 6.8倍。Selene 優秀的運算及能源效率使用表現,要歸功於 NVIDIA A100 GPU 的第三代 Tensor Core,既加快了傳統模擬作業的 64 位元數學運算速度,也加快了低精度的 AI 運算工作。

NVIDIA 只用了不到四週的時間便打造出 Selene 系統,能有如此亮眼的表現讓人刮目相看。而當時工程師使用了 NVIDIA 的模組化參考架構,才能夠快速組裝出 Selene 系統。

NVIDIA 的模組化參考架構指南定義了 NVIDIA 所謂的 DGX SuperPOD。它是以用於打造現代資料中心強大又靈活的構件,也就是 NVIDIA DGX A100 系統為基礎。

彈性十足的 DGX A100 系統現已上市,在一具 6U 伺服器中搭載了八個 A100 GPU,並且採用 NVIDIA Mellanox HDR InfiniBand 網路技術。它是為了加快高效能運算、資料分析,以及包括訓練和推論在內的 AI 運算作業,以及快速部署等目的而誕生的產品。

任何組織使用這項參考設計,都能快速建立一個世界級的運算叢集。它展示了如何利用高效能的 NVIDIA Mellanox InfiniBand Switch,以搭建樂高積木的方式來連接二十套 DGX A100 系統。

四名操作員可以在短短一小時內架設一個搭載二十套系統的 DGX A100 運算叢集,進而建立一個運算速度達到 2-petaflops 並進入 TOP500 榜單的系統。這樣的系統設計能夠在標準資料中心的電源和散熱能力範圍內穩定運行。

工程師透過額外加入一層 NVIDIA Mellanox InfiniBand Switch,便能將這二十套系統單元中的十四套串連起來,打造出 Selene 系統,其中包含280 套 DGX A100 系統、2,240 個 NVIDIA A100 GPU、494 個 NVIDIA Mellanox Quantum 200G InfiniBand Switch、56 TB/s 網路結構,以及7PB 高效能全快閃儲存裝置

Selene 系統最重要的規格之一,便是提供超過 1 exaflops 的 AI 運算效能。此外,Selene 系統僅使用了系統中的十六套 DGX A100 系統,在 TPCx-BB 這項重要的資料分析基準刷下全新紀錄,其效能表現較任何其它系統高出二十倍。

當 AI 與分析成為科學運算領域中一部分新的要求條件時,這項結果便顯得極為重要。

各地的研究人員紛紛使用深度學習和資料分析技術,以預測最有可能得到實驗成果的領域,這項方法將能減少研究人員寶貴的時間與金錢來進行實驗,並加快取得科學研究成果的速度。

舉例來說,目前正在使用 NVIDIA 上個月甫推出的 A100 GPU,打造六套尚未進入 TOP500 排行榜的系統。這六套系統將加快高效能運算與 AI 的融合,以定義科學的新時代。

TOP500 榜單擴大了科學運算領域的發展,其中一套便是阿貢國家實驗室 (Argonne National Laboratory) 所使用的超級電腦系統,研究人員將使用由 24 套 NVIDIA DGX A100 系統組成的運算叢集來掃描數十億種藥物,以尋找治療新冠肺炎的方法。

研討會專區
主題式電子報
熱門文章