NVIDIA宣布正式為大型跨區域資料中心的AI GPU推出AI GPU遠端監測技術,不過由於先前曾被傳出NVIDIA開發一套可偵測、定位以及遠端關閉非法AI GPU功能的技術,NVIDIA在新聞稿重申這項技術是提供營運商更有效追蹤大量AI GPU運作情況的選擇性功能,NVIDIA也無法進行硬體定位追蹤、遠端關閉或留有後門。
NVIDIA這項軟體解決方案是提供客戶額外的選擇性功能,可透過視覺化界面監控NVIDIA GPU叢集,使雲端夥伴、企業具備洞察儀表板,協助它們提升整個運算基礎設施的GPU穩定性與可用性;該軟體可提供GPU叢集的使用狀況、配置與顯示錯誤,同時用戶端軟體代理程式將進行開源。
▲NVIDIA將為服務商提供一套以視覺化監管所屬GPU叢集的軟體,便於客戶更有效的掌握旗下GPU資源與使用狀況
NVIDIA強調這項開發中的軟體功能可協助資料中心營運商用於追蹤用電峰值,以利提升能源效率,追蹤整個GPU叢集的使用率、記憶體頻寬與互連的健康狀況提前因應,盡早發現散熱異常避免過熱與造成零組件老化,還有確認軟體配置與設定的一致性,以及偵測錯誤與異常以便及早排除。
該項服務將提供一個用戶端的軟體代理,安裝代理後,可將節點級的GPU遠端監控資料串流到NVIDIA NGC託管的入口網站,並透過儀表板視覺化GPU叢集的利用率,並提供全域或運算區域的資料;此外這項工具也將進行開源,讓客戶可整合到自己的解決方案。


