隨著人工智慧 (AI) 應用以前所未有的速度發展,支援這些運算的資料中心基礎設施也面臨著巨大的挑戰,尤其是對電力穩定性和效率的需求。備援電池單元 (BBU) 在 AI 伺服器機架中扮演著關鍵角色,確保在意外斷電時系統仍能持續運作,保護寶貴的資料和運算任務。但 BBU 在整個 AI 伺服器機架的物料清單 (BOM) 中究竟佔有多少比重呢?
AI 模型訓練和推論需要龐大的運算資源,任何中斷都可能導致數小時甚至數天的進度損失,以及潛在的數據損壞。BBU 的主要職責是在市電供應中斷或不穩定時,提供即時、無縫的電力支援,確保伺服器能夠繼續運作或有足夠時間完成正常關機程序。
傳統資料中心的機架功率密度約為 5-10 kW,但 AI 伺服器機架的功率需求急劇攀升,甚至可能超過 100 kW。這種高功率密度對供電系統提出了嚴苛的要求。BBU 不僅需要提供備援電力,還需要具備高效率和高功率密度,以適應機架內有限的空間。整合在機架層級的 BBU 相比傳統的大型中央 UPS 系統,能提供更快速的故障轉移保護,並減少能源損耗。
先進的 BBU 解決方案通常與智慧電源管理系統整合,能夠進行數位化管理和遠端即時監控。這不僅提高了可靠性,也有助於優化能源使用,降低營運成本。例如,一些 BBU 解決方案聲稱能提供比業界平均高出數倍的功率密度,並實現高達 97.5% 的電源轉換效率。
為了滿足 AI 伺服器的高要求,BBU 技術不斷進步。傳統的鉛酸電池因體積大、能量密度低、壽命較短等缺點,逐漸被更先進的技術取代。
鋰離子電池是目前資料中心 BBU 的主流選擇之一。它們具有較高的能量密度、較長的循環壽命和相對較輕的重量。許多 BBU 解決方案,包括功率高達 12kW 的型號,都採用高效能的鋰離子電池。
鎳鋅電池作為一種新興技術,在高功率密度應用中備受關注。相較於鋰離子和其他技術,NiZn 電池能在更小的體積內安全地釋放更高的功率(功率密度據稱可達其他技術的兩倍)。它們還具有更寬的工作溫度範圍,更能容忍伺服器機架內的高溫環境,並且對電池串之間的不平衡容忍度更高,在較低的健康狀態下也能維持恆定的功率輸出。這些特性使其成為高功率 AI 基礎設施備援電源的理想選擇。
下表概述了不同 BBU 電池技術的主要特性,幫助理解它們在 AI 伺服器應用中的適用性:
特性 | 鉛酸電池 (Lead-Acid) | 鋰離子電池 (Li-ion) | 鎳鋅電池 (NiZn) |
---|---|---|---|
功率密度 | 低 | 高 | 非常高 |
能量密度 | 低 | 高 | 中等 |
循環壽命 | 較短 | 較長 | 中等至較長 |
工作溫度範圍 | 一般 | 較寬 | 非常寬 |
安全性 | 相對穩定 | 需管理系統 (BMS) | 本質安全 |
成本 | 低 | 較高 | 中等至較高 |
體積/重量 | 大/重 | 小/輕 | 更小/更輕 (相對於功率) |
維護需求 | 較高 | 低 | 低 |
雖然無法給出 BBU 在 AI 伺服器機架 BOM 中的確切百分比,但我們可以透過分析影響其成本的因素來理解其潛在份量。以下心智圖概述了這些關鍵考量:
從心智圖中可以看出,BBU 的成本和其在 BOM 中的地位,是技術選擇、性能需求、整合策略及市場動態等多重因素交互作用的結果。相較於佔據 BOM 高達 40% 左右的記憶體(尤其是高頻寬記憶體 HBM),BBU 的佔比可能較低,但其功能性價值極高。一些分析師根據其關鍵作用和技術含量,推測其在 BOM 中的佔比可能達到 10-20% 或更高,尤其是在高階 AI 伺服器中,但這仍需視具體情況而定。
為了更直觀地比較主要 BBU 電池技術的特性,以下雷達圖展示了它們在關鍵指標上的相對表現。分數越高代表在該指標上表現越佳(成本除外,成本分數越低越好)。請注意,這些數值是基於普遍認知的相對比較,而非精確測量值。
此雷達圖顯示,鋰離子和鎳鋅電池在多數性能指標上優於鉛酸電池,尤其是在功率密度、能量密度和工作溫度範圍方面。鎳鋅電池在功率密度和安全性上表現突出,而鋰離子電池在能量密度和循環壽命方面有優勢。鉛酸電池的主要優勢在於其較低的初始成本。
了解 BBU 在實際應用中的設計挑戰對於全面評估其在伺服器機架中的作用至關重要。以下影片來自 Open Compute Project (OCP) 技術週,探討了 BBU 模組和機櫃解決方案的設計考量,包括鋰離子電池備援系統的相關議題。
這段影片深入討論了在設計 BBU 模組和相關機櫃解決方案時面臨的技術挑戰,例如散熱管理、安全性、可擴展性以及與現有資料中心基礎設施的整合。理解這些挑戰有助於認識到 BBU 不僅僅是一個電池,而是一個複雜的工程子系統,其設計優劣直接影響 AI 伺服器的整體性能和可靠性,也反映在其潛在的 BOM 成本中。