开放计算项目(Open Compute Project, OCP)的Open Rack v3(ORv3)高功率机架(High Power Rack, HPR)解决方案是为应对现代数据中心,特别是人工智能(AI)和机器学习(ML)应用日益增长的功率需求而设计的一项创新。随着GPU/CPU/张量处理单元(xPU)核心数量的爆炸式增长,每机架的功率密度持续攀升,对传统的数据中心基础设施构成了严峻挑战。ORv3 HPR正是OCP社区和行业领导者如Meta、Google、Microsoft等共同努力的成果,旨在提供一个可扩展、高效且灵活的电源和散热架构。
随着AI和机器学习工作负载的兴起,数据中心的功率密度达到了前所未有的水平。传统的机架和电源系统难以满足单机架超过92 kW,甚至未来高达140 kW的功率需求。ORv3 HPR的出现正是为了解决这一核心挑战,它通过一系列设计创新,推动了机架功率容量的边界。
ORv3 HPR解决方案的核心在于其强大的功率输出能力。例如,Advanced Energy提供的高功率机架电源单元(PSU)能够实现5.5 kW的单相AC-DC电源输出,其峰值效率接近98%,显著降低了功率损耗。一个33 kW的ORv3 HPR电源柜可容纳六个5.5 kW的热插拔PSU,它们并行工作以提供50V、660A的输出,总输出功率可扩展至33 kW,甚至通过并联多个电源柜支持100kW以上的AI/ML应用。这种高效率和高功率因数的设计,对于降低数据中心的运营成本和环境影响至关重要。
OCP ORv3机架的设计示例
ORv3 HPR的设计哲学强调模块化和灵活性。它采用单一电源区,提供48V输出电压,并且电源系统是灵活可配置的,可以根据需要增加更多功率或备用电源。电源监控接口(PMI)模块在此架构中扮演了关键角色,它与电源/电池柜管理控制器协同工作,确保符合所有OCP的电磁兼容(EMC)要求,并提供必要的文档和可维护性信息,包括FRU(现场可更换单元)和PCB信息。
ORv3 HPR生态系统由多个关键组件构成,它们协同工作以实现高功率密度和高效能。这些组件包括机架本身、电源柜(Power Shelf)、电源供应单元(PSU)、电源监控接口(PMI)以及相关的连接器和冷却系统。
ORv3机架是整个系统的基础,它提供了支持IT设备(如服务器、存储和交换机)的物理框架。在HPR配置中,机架的母线(busbar)被扩展和加深,以支持更高的电流和功率传输,同时保持与标准ORv3设备的兼容性。这确保了用户可以在现有ORv3基础设施上无缝升级到HPR解决方案。
电源分配从数据中心机架母线到各个IT设备(如服务器、存储或交换机柜)的连接也得到了优化。例如,TE Connectivity的HDC Lite电源连接器和线缆组件符合ORv3架构,满足了下一代AI和机器学习应用的关键功率需求。这些连接器设计有专用底盘接地触点,确保安全可靠的连接,并能够支持高达1000A+的电流等级。
PSU是ORv3 HPR系统的核心电源转换组件。例如,Advanced Energy的5.5 kW ORv3 HPR PSU是一个单相输入AC-DC电源,可在200至277 VAC的标称输入电压范围内运行,并输出50VDC。这些PSU以其接近98%的领先峰值效率和更高的功率因数,显著减少了功率损耗。
电源柜则是PSU的载体,一个33 kW的ORv3 HPR电源柜是一个三相输入AC-DC电源柜,可容纳六个5.5 kW的ORv3 HPR PSU,它们并行工作以产生高达50V、660A的输出。这种设计提供了冗余能力,例如5+1冗余配置下的27.5 kW输出,确保系统的高可用性。
这个视频深入探讨了OCP ORv3高功率机架(HPR)生态系统的解决方案,详细解释了Meta和Rittal工程师如何合作开发这一创新方案,以应对AI架构带来的日益增长的功率和散热挑战。它展示了ORv3 HPR如何通过改进机架设计、电源供应和冷却系统来支持未来的高性能计算需求,为理解ORv3 HPR的整体架构提供了宝贵的视觉和技术背景。
PMI模块(Power Monitoring Interface)是ORv3 HPR系统中的关键管理组件,负责监控和管理电源及电池柜的运行状态。它确保了整个电源系统的稳定性和可靠性,并提供了详细的电气、机械和服务性文档,这对于数据中心的运维和故障排除至关重要。PMI模块需要通过严格的测试,以确保其符合OCP规定的所有EMC要求。
ORv3 HPR不仅是现有技术的迭代升级,更是为未来数据中心,特别是高密度AI计算需求所量身定制的解决方案。它的技术优势体现在功率效率、散热集成以及对下一代AI工作负载的支持能力上。
ORv3 HPR的一大显著优势是其在降低功率损耗方面的表现。通过采用高效率的PSU,峰值效率接近98%,它极大地减少了能源浪费。同时,更高的功率因数意味着电源系统能够更有效地利用输入的交流电,减少无功功率的消耗,从而降低整体的电费支出和碳排放。
面对AI芯片日益增长的散热需求,ORv3 HPR解决方案与液体冷却系统(Liquid Cooling)的集成变得至关重要。机架设计已进行调整,以支持与液冷歧管和电源鞭系统的集成。这使得ORv3 HPR能够有效地管理高功率密度带来的热量,确保IT设备在最佳温度下运行,从而提高性能和寿命。业界正在探索超越现有ORv3 HPR母线的解决方案,通过液冷来支持下一代AI机架的功率水平。
OCP社区正在积极推动ORv3 HPR的进一步发展,以满足未来AI工作负载的需求。Meta、Google、Microsoft和OCP正在合作制定“Mount Diablo”规范,这将是机架和电源架构的下一次飞跃。未来的路线图包括ORv3 HPR V1和V2,这些版本将是独立的机架设计,配备升级的电源供应单元,以提高机架的功率能力。最终,解决方案可能走向“解耦电源机架”的概念,即计算和电源被分离到不同的机架中,进一步优化空间利用和散热效率。
为了更直观地理解ORv3 HPR的性能特点,以下雷达图展示了其在不同关键指标上的表现,基于对现有资料的综合分析。
ORv3 HPR在功率密度、能源效率、散热能力、模块化程度、兼容性及未来扩展性方面的综合评估。
这张雷达图直观地展示了ORv3 HPR在多个关键维度上的卓越性能。它的高功率密度和能源效率是其核心优势,直接解决了AI工作负载对电力供应的严苛要求。同时,其与液冷系统的集成能力以及模块化设计,使其在散热和部署灵活性方面表现出色。与旧有标准的高度兼容性,也使得数据中心能够逐步升级而无需彻底改造。最后,其强大的未来扩展性预示着它将是支持未来AI发展的重要基石。
ORv3 HPR的成功离不开OCP社区内众多成员的协作与创新。从机架制造商到电源解决方案供应商,再到连接器厂商,各方共同构建了一个强大而高效的生态系统。
下表总结了ORv3 HPR解决方案中的主要组件及其功能和相关供应商:
组件 | 功能描述 | 关键特性 | 主要供应商/贡献者 |
---|---|---|---|
ORv3 HPR 机架 | 提供高功率密度IT设备的物理框架,支持扩展的母线和液冷集成。 | 支持高达140 kW的功率负载;兼容标准ORv3设备;支持液冷歧管集成。 | Meta, Rittal, Vertiv, Sanmina, Cheval Group |
ORv3 HPR 电源柜 (Power Shelf) | 容纳并管理多个PSU,提供稳定的直流电源输出。 | 33 kW三相输入AC-DC电源柜;可容纳6个5.5 kW PSU;支持并行运行。 | Advanced Energy, Delta Electronics |
ORv3 HPR 电源供应单元 (PSU) | 将交流电转换为IT设备所需的直流电。 | 5.5 kW单相AC-DC电源;50VDC输出;峰值效率接近98%;高功率因数。 | Advanced Energy |
ORv3 HPR 电源监控接口 (PMI) 模块 | 监控和管理电源/电池柜的运行状态,确保系统合规性。 | 符合OCP EMC要求;提供电气、机械和服务性文档;支持RJ45和Edge连接器。 | Open Compute Project (OCP) |
连接器与线缆组件 | 实现机架内部各组件之间以及机架与IT设备之间的电源连接。 | 符合ORv3架构;支持高电流等级(如1000A+);具有专用底盘接地触点。 | TE Connectivity, Amphenol |
IT 设备设计指南 | 为在ORv3机架中部署服务器、存储、交换机等IT设备提供指导。 | 确保IT设备与ORv3机架接口的兼容性。 | Meta & Rittal |