是德科技推出AI資料中心建構工具 提升AI訓練效能模擬能力

2025 年 04 月 02 日

是德科技(Keysight)宣布推出AI資料中心建構工具,這是一款先進的軟體套件,可模擬真實世界的工作負載,以評估新演算法、元件和協定對AI訓練效能的影響。該工具的工作負載模擬功能,能將大型語言模型(LLM)和其他AI模型訓練工作負載,整合至AI基礎設施元件(如網路、主機與加速器)的設計和驗證流程中。此解決方案實現了硬體設計、協定、架構和AI訓練演算法之間更緊密的協同效應,從而提升系統效能。

AI營運商會使用各種平行處理策略(亦稱為模型分區),以加速AI模型訓練。當模型分區與AI叢集的拓撲和配置相符時,能進一步提升訓練效能。在AI叢集設計階段,關鍵問題通常需要透過實驗來解答,其中問題多聚焦於圖形處理器(GPU)之間的資料移動效率。關鍵考量包括:

– GPU互連在AI主機或機架內的擴展設計
– 擴展網路設計,包括每個GPU的頻寬和拓撲結構
– 網路負載平衡和壅塞控制的配置
– 訓練框架參數的調整

KAI資料中心建構工具的工作負載模擬解決方案,能重現真實AI訓練任務中的網路通訊模式,從而加速實驗流程、縮短技術熟練所需的學習曲線,並深入揭露效能下降的潛在原因。使用者可以存取GPT和Llama在內的大型語言模型工作負載庫,並選擇常用的模型分區架構,如資料平行(DP)、全分片資料平行(FSDP)和三維平行處理。

使用KAI資料中心建構工具中的工作負載模擬應用程式,AI營運商可以:

– 實驗平行處理參數,包括分區大小及其在現有AI基礎設施上的分布(調度)
– 瞭解分區內部和分區之間的通訊對總體作業完成時間(JCT)的影響
– 識別效能不佳的集體運算,並深入分析瓶頸所在
– 分析網路利用率、尾部延遲和壅塞情況,以了解它們對總體作業完成時間的影響

KAI資料中心建構工具的新增工作負載模擬功能,能使AI營運商、GPU雲端供應商和基礎設施供應商將真實的AI工作負載導入其實驗室設置,以驗證不斷演進的AI叢集和新元件設計。他們也能通過實驗來微調模型分區架構、參數和演算法,從而最佳化基礎設施配置,並提高AI工作負載效能。

是德科技網路測試與安全解決方案事業部副總裁兼總經理Ram Periakaruppan表示,隨著AI基礎設施的規模和複雜性的增長,全方位驗證和最佳化的需求變得至關重要。為避免高昂的延遲和返工成本,驗證工作須提前至設計和製造週期的早期階段。KAI資料中心建構工具的工作負載模擬功能,為AI元件和系統設計注入前所未有的真實性,有助於最佳化工作負載,以實現最高效能。

KAI資料中心建構工具是是德科技KAI架構的基礎,該架構是一套端到端的解決方案,旨在通過模擬真實世界的AI工作負載,協助客戶驗證AI叢集元件,進而擴展資料中心的AI處理能力。

是德科技將於2025年4月1日至3日在美國加州舊金山莫斯康展覽中心舉辦的2025光纖通訊大會(OFC 2025)#1301展攤中,展示KAI資料中心建構工具和其工作負載模擬功能。

標籤
相關文章

ADI高功率µModule穩壓器降低資料中心冷卻需求

2018 年 11 月 23 日

英飛凌高密度電源模組提升AI資料中心效能

2024 年 03 月 07 日

是德科技推出可攜式800GE桌上型系統

2024 年 10 月 21 日

併購Mellanox NVIDIA再掀資料產業變革

2019 年 06 月 02 日

宸曜推新Edge AI解決方案

2020 年 09 月 21 日

ROHM SiC SBD成功應用於Murata資料中心電源模組

2023 年 03 月 20 日
前一篇
AUTOCRYPT與Anritsu簽署合作備忘錄 推動全球車輛安全測試方法發展
下一篇
Molex推出VersaBeam EBO光纖互連解決方案 提升資料中心部署效率