本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

当前位置: 主页 > 百科知識 > 百科知識1 >

什麼是Scale Up和Scale Out?

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

如果您希望可以時常見面,歡迎標星收藏哦~來源:內容來自半導體行業觀察綜合 。在本文中,我們來談一下GPU集羣的橫向和綜合拓展。讓我們從“AI Pod”的概念開始。這個術語對不同的人可能意味着不同的東西,但它通常指的是一種預先配置的模塊化基礎設施解決方案,旨在簡化和加速AI工作負載的部署。這些“pod”將計算、存儲、網絡和軟件組件集成爲一箇緊密相連的單元,從而促進高效的 AI 運行。這就是我們遇到“縱向擴展”和“橫向擴展”等術語的地方。以下是可視化示例:對於不熟悉數據中心組織結構的人來說,機架是一箇標準化的物理框架或機櫃,用於容納多箇機架式設備。除了服務器(例如刀片服務器)之外,機架還可能包含網絡設備(例如交換機)、電源管理組件(例如電源和配電單元)、存儲設備、冷卻和環境控制系統等等。在本專欄的上下文中,每個機架可以被視爲一箇 AI Pod。“Scale-Up”(又稱“垂直擴展”)是指向單個 AI Pod 或節點添加更多資源,例如處理器和內存。相比之下,“Scale-Out”(又稱“水平擴展”)是指向系統添加更多 AI Pod 或節點並將它們連接在一起。同時,XPU 是一箇通用術語,指任何類型的處理單元(“X”代表通配符,表示“任意”或“所有”處理器)。XPU 示例如下:CPU(中央處理器)GPU(圖形處理單元NPU(神經處理單元)TPU(張量處理單元)DPU(數據處理單元)FPGA(現場可編程門陣列)ASIC(專用集成電路)爲了進行這些討論,我們假設術語“ASIC”包含片上系統(SoC)設備。每個 XPU 刀片通常包含 2 到 8 個 XPU 設備。每個設備可以形成爲單片芯片(即由單個半導體切片製成),也可以形成由一組稱爲“芯片集”的芯片組成的多芯片系統。我們這裏討論的計算處理能力令人難以置信,XPU 設備本身也同樣如此。例如,NVIDIA 的 B200 GPU 擁有超過 2000 億個晶體管(當然,我可沒親自數過)。但人工智能不僅僅是“簡單”地處理數據——我們還需要傳輸海量數據。從更高的層面來看,我們可以將其視爲兩個主要方面:pod 內部和 pod 之間。Pod 間通信是指不同 AI Pod 之間的通信,通常跨機架或物理基礎設施單元。Pod 內通信是指單個 AI Pod 內服務器之間的信息交換,通常位於同一機架或刀片服務器內,需要極低的延遲和極高的帶寬。上圖展示了一箇應用程序 pod 從三個擴展到五個的示例:橫向擴展的優勢它提供了長期的可擴展性。橫向擴展的增量特性使您能夠根據預期的長期增長來擴展應用程序。縮減規模很容易。當負載較低時,您可以通過減少 Pod 數量來輕鬆縮減應用程序規模。這可以釋放計算資源,供其他應用程序使用。您可以使用商用服務器。通常,您不需要大型服務器來運行容器化應用程序。由於應用程序 Pod 可以水平擴展,因此可以根據需要添加服務器。橫向擴展的缺點:可能需要重新架構。如果您的應用程序使用的是單片架構,則需要重新架構您的應用程序。網絡複雜性增加。隨着節點數量的增加,組件之間的網絡連接複雜性也會增加,需要強大的服務發現和通信協議。數據一致性可能具有挑戰性。對於分佈式系統,確保跨多箇節點的數據一致性需要精心設計,尤其是對於AI模型訓練和其他數據密集型工作負載。在跨pod和數據中心架構領域,主要的競爭者是InfiniBand和超級以太網。InfiniBand於2000年首次發佈,最初由包括IBM、英特爾和Mellanox(現爲NVIDIA旗下公司)在內的聯盟開發。如今,InfiniBand由InfiniBand貿易協會(IBTA)管理。雖然相關規範已經發布,但NVIDIA和Mellanox主要負責推動實施。相比之下,超級以太網聯盟(UEC)成立於2023年,由包括AMD、英特爾、HPE、博通、思科、Arista、微軟和Meta等在內的組織組成。超級以太網是一箇開放標準,旨在實現廣泛的行業協作和互操作性。簡而言之,InfiniBand 長期以來一直是低延遲、高帶寬通信的標準,但超級以太網正在迅速成爲下一代人工智能基礎設施的開放、可擴展、以太網兼容的替代方案。縱向擴展(或稱垂直擴展)是指添加更多資源(例如 CPU、內存和磁盤)來提升計算能力和存儲容量。這種方法適用於部署在物理服務器或虛擬機上的傳統應用程序,也適用於容器化應用程序。上圖展示了一箇應用程序 Pod,它最初是一箇小型配置,包含 1 個 CPU、2 GB 內存和 100 GB 磁盤空間,然後垂直擴展到包含 4 個 CPU、8 GB 內存和 500 GB 磁盤空間的大型配置。現在,憑藉更多的計算資源和存儲空間,該應用程序可以處理和響應來自客戶端的更多請求。垂直擴展適合需要擴展到合理規模的應用程序,特別是具有密集內存或處理要求的數據庫服務。垂直擴展的優勢它簡單直接。對於具有更傳統和單片架構的應用程序,只需添加更多計算資源即可擴展。您可以充分利用強大的服務器硬件。如今的服務器比以往任何時候都更加強大,擁有更高效的 CPU、專用的 AI 加速器、更快的 NVMe 存儲和高速網絡。利用這些充足的計算資源,您可以擴展到非常大的應用程序容器。垂直擴展的缺點擴展是有限制的。即使擁有當今強大的服務器,隨着您不斷嚮應用程序 pod 添加計算資源,遲早還是會遇到物理硬件的限制。計算資源瓶頸的出現。當您向物理服務器添加計算資源時,很難線性提升和平衡所有組件的性能,並且很可能會在某個地方遇到瓶頸。例如,某臺服務器可能存在內存瓶頸,內存使用率爲 100%,CPU 使用率爲 70%。將 DIMM 數量翻倍後,CPU 使用率爲 100%,而內存使用率爲 80%。託管應用程序的成本可能會更高。通常,計算能力更強的大型服務器成本更高。如果您的應用程序需要大量計算資源,那麼使用這些高成本的大型服務器可能是唯一的選擇。由於物理硬件的限制,如果您的應用程序需要繼續增長,垂直擴展是一種相當短期的解決方案。在 pod 內部通信方面,NVLink(由 NVIDIA 開發並於 2016 年首次推出)一直是歷史標準,尤其是在基於 NVIDIA GPU 的系統中,但超級加速器鏈接 (UALink) 正在成爲跨 XPU 的高速、與供應商無關的互連的未來。不過,英偉達黃仁勳對後者不看好,你又怎麼看呢?半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4043期內容,歡迎關注。『半導體第一垂直媒體』實時 專業 原創 深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-09 01:12am (UTC +8)
栏目列表