NVIDIA GB200 NVL72 伺服器機櫃示意圖,其高運算密度對電力穩定性提出更高要求。
BBU(Backup Battery Unit),中文稱為「電池備援電力模組」,是一種高效能的備援電力裝置,通常直接安裝在伺服器機櫃內。它的核心使命是在遭遇主電力供應中斷或不穩定的突發狀況時,能夠立即接手,提供短時間但至關重要的備用電力。對於像 NVIDIA GB200 和 GB300 這樣進行大規模、高強度運算的 AI 伺服器而言,瞬間的電力中斷都可能導致運算任務失敗、重要資料遺失,甚至硬體損壞。BBU 的存在,就是為了防止這些災難性後果的發生。
當外部供電系統異常時,BBU 會無縫啟動,為伺服器(特別是記憶體和儲存系統)提供數分鐘(通常是 5-7 分鐘)的穩定直流電力。這段寶貴的時間足以讓系統將正在處理的、暫存在 DRAM 中的資料安全地寫入到 SSD 等非揮發性儲存裝置中,確保資料的完整性和一致性,並允許系統有序關機或等待備用發電機啟動。
資料中心的穩定運行離不開可靠的電力備援系統,BBU 在其中扮演重要角色。
雖然 BBU 和 UPS(不斷電系統)都提供備援電力,但它們在設計理念、應用場景和性能特性上存在顯著差異。UPS 通常是獨立於伺服器機櫃之外的大型系統,使用鉛酸電池,提供較長時間的備援,但也存在體積龐大、重量沉重、充電慢、壽命短等缺點。BBU 則是針對伺服器機櫃內部設計,更為整合和高效。
下表比較了 BBU 與傳統 UPS 的主要特性:
特性 | BBU (鋰電池) | 傳統 UPS (鉛酸電池) |
---|---|---|
部署位置 | 整合於伺服器機櫃內 | 通常獨立於機櫃外 |
體積與重量 | 小巧輕便 (減少 50-70% 空間, 減輕 50-60% 重量) | 體積龐大、重量沉重 |
電池技術 | 鋰電池 (常為 LiFePO4) | 鉛酸電池 |
備援時間 | 較短 (通常 5-7 分鐘,專注資料保護) | 較長 (數十分鐘至數小時) |
充電速度 | 快 (約快 5 倍) | 慢 |
使用壽命 | 長 (約 5-10 年) | 短 (約 2-3 年) |
轉換效率 | 較高 | 相對較低 |
主要應用 | 伺服器、資料中心內部備援,確保資料寫入 | 提供區域性或整體設施的電力備援 |
在 NVIDIA 的 GB200 和 GB300 這種高功耗 AI 伺服器架構中,BBU 的整合方式經過精心設計,以確保最高的可靠性和效率。
NVIDIA Blackwell 架構帶來更高的運算效能,也對電源和散熱系統提出了更高要求。
一個關鍵的設計概念是「儲能托盤」(Energy Storage Tray)。這個托盤通常會同時整合 BBU 和超級電容器(Supercapacitor)。這兩者分工合作:
這種協同設計結合了超級電容的快速響應和 BBU 的持續供電能力,為伺服器提供了更全面的電力保護。
BBU 模組並非獨立運作,而是深度整合在伺服器的「電源架」(Power Rack)中。NVIDIA 的參考設計建議每個電源架至少配備一個 BBU 模組。
為了方便維護和更換,BBU 通常設計為「功能可更換單元」(FRU, Functional Replaceable Unit)。這意味著如果某個 BBU 模組發生故障或壽命到期,維護人員可以快速地將其抽出並換上新的模組,而無需關閉整個系統或進行複雜的拆卸,大大提高了系統的可維護性和可用性。
在 NVIDIA GB200 伺服器架構中,BBU 的角色和配置體現了其作為新興備援方案的初期應用階段。
根據多方資訊,BBU 在 GB200 的初期設計中被定義為選配組件。這意味著客戶可以根據自身的應用需求、預算以及對電力穩定性的要求來決定是否配置 BBU。然而,隨著 AI 應用對系統穩定性、資料完整性的要求越來越高,以及對傳統 UPS 方案缺點的考量,市場趨勢顯示 BBU 的採用率正在增加,甚至有報導指出未來可能將 BBU 升級為 GB200 的標準配置。
GB200 系統的總功耗據報導可達 120kW。這是一個相當高的數字,意味著即使是短暫的電力中斷,也可能對大量正在運行的 GPU 造成影響。單一 GB200 GPU 的功耗約為 1.2kW。雖然 BBU 提供的 5-7 分鐘備援時間看似不長,但對於完成關鍵資料的寫入操作已經足夠。在選配模式下,客戶需要評估其資料中心電力環境的穩定性以及資料保護的優先級別,來決定 BBU 的配置數量。
相較於 GB200,NVIDIA GB300 在 BBU 的整合上邁出了更重要的一步,反映了對更高穩定性和可靠性的追求。
根據摩根大通等機構的報告以及業界普遍預期,BBU 在 GB300 系統中將成為標準配置,不再是可選項目。這一轉變的主要原因包括:
將 BBU 列為標配,是 NVIDIA 旨在降低 GB300 伺服器運行風險、確保其在嚴苛環境下穩定表現的重要舉措。
為了應對 GB300 更高的功耗,BBU 的設計和配置也相應強化。有報導指出,一套 GB300 系統可能需要搭載多達 5 個 BBU 模組(可能包含一個冗餘模組),以確保在滿載情況下仍能提供足夠的備援電力。每個 BBU 模組的單價約在 300 美元左右。這種多模組的配置不僅提供了充足的電力,也增加了系統的冗餘度。GB300 的設計將繼續沿用 BBU 與超級電容協同工作的「儲能托盤」架構,並由台達電、光寶科等主要供應商提供整合解決方案。
BBU 之所以能在 AI 伺服器領域嶄露頭角,取代部分傳統 UPS 的角色,源於其本身的技術特性和多方面優勢。
BBU 的核心是其儲能單元——電池。目前市場上的 BBU 主流採用鋰離子電池,特別是磷酸鐵鋰(LiFePO4)電池。選擇這種電池技術主要基於以下優點:
此外,鋰電池能量密度高,使得 BBU 可以做到比同等容量的鉛酸 UPS 更小、更輕。
為了更直觀地展示 BBU 相對於傳統 UPS 的優勢,我們可以使用以下圖表從多個維度進行比較。分數越高代表在該維度表現越好(注意:初期成本分數越高代表成本越低,備援時間分數則需結合應用場景理解)。
從圖中可以看出,BBU 在空間效率、重量、壽命、充電速度和維護需求方面明顯優於傳統 UPS,雖然初期成本可能略高於基礎鉛酸 UPS,且備援時間設計上較短(但滿足其特定目標),但其綜合優勢使其成為現代高密度資料中心和 AI 伺服器的理想選擇。
NVIDIA GB200/GB300 對 BBU 的採用,帶動了相關供應鏈的發展。這個生態系涵蓋了從設計、製造到零組件供應的多個環節。
這個心智圖展示了從 NVIDIA 制定規格開始,經過電源供應商整合 BBU 模組,再由伺服器製造商組裝到最終產品的流程。其中,台灣廠商在電源供應、電池模組和連接器等環節扮演了關鍵角色。
以下影片探討了 BBU 的概念以及為何它對 NVIDIA 的新一代伺服器如此重要,特別提及了 GB300 的發展趨勢。
這段影片強調了 BBU 作為「電力救援神器」的角色,並指出在 2025 年的升級版 GB300 中,BBU 將成為標準配備,這預示著相關台灣供應鏈將迎來龐大商機。影片從市場和產業角度解釋了 BBU 為何受到黃仁勳和 NVIDIA 的重視,與我們討論的技術架構和設計趨勢相輔相成。