开放计算项目(Open Compute Project,简称OCP)是一个致力于通过开放共享数据中心产品设计和行业最佳实践来推动数据中心创新的组织。自2011年由Facebook、Rackspace和Intel共同创立以来,OCP极大地影响了全球大型计算设施的设计和运营。在OCP的众多贡献中,Open Rack V3(ORV3)标准无疑是其在数据中心硬件设计领域的一个重要里程碑,它旨在满足日益增长的计算需求,特别是AI驱动的超高密度和高能耗应用。
OCP的成立是为了将开源软件的理念应用于数据中心硬件设计,以提高效率、弹性和可扩展性。它是一个非营利组织,汇集了全球的技术领导者,共同推动开放的IT基础设施。截至2025年2月,OCP在全球拥有超过400家成员公司,其中包括Meta、IBM、Google、Microsoft、NVIDIA等业界巨头。
OCP社区通过定期举办线上会议、研讨会和年度峰会,分享和讨论服务器、存储、交换机和数据中心机架等硬件设备的设计和开发。这种协作模式加速了数据中心技术的创新步伐,并促进了最佳实践的普及。
OCP 集团标志,象征着开放计算项目的协作精神。
开放机架是OCP标准中的一个重要组成部分,它旨在优化数据中心的空间利用率和能效。当前主流的版本是Open Rack Version 2 (ORV2),它采用12伏母线供电,相比传统19英寸机架,能够更高效地进行电力传输,每个机架可节省15%到30%的电力。
Open Rack V3 (ORV3) 是Meta于2022年发布的最新的基础机械规范,并得到了Google和Rittal等公司的重要贡献。ORV3的推出主要是为了应对2022年以来人工智能在数据中心对更高功率的需求。
ORV3引入了以下关键创新:
OCP NIC 3.0(网络接口卡)是OCP项目中另一个非常成功的子项目。它在2017年开始定义,旨在解决OCP Mezz 2.0版本在维护灵活性上的不足。OCP NIC 3.0采用了大卡(LFF)和小卡(SFF)两种尺寸规格,通过拉手条或螺钉从面板插入服务器机箱,实现了免开盖维护。
其主要特点包括:
一张展示OCP NIC 3.0网卡的设计,强调其紧凑性与易于维护的特点。
该视频深入探讨了OCP NIC 3.0接口,展示了其如何实现向前兼容性和在数据中心硬件设计中的重要作用,是理解OCP标准化努力的绝佳资源。
随着AI计算密度的不断提升,散热成为了数据中心面临的最大挑战之一。OCP的冷却环境项目(Cooling Environment Project)是OCP迄今为止最大规模的跨行业合作项目,整合了包括高级冷却解决方案(ACS)和高级冷却设施(ACF)在内的5个子项目,如冷板子项目、门式热交换器子项目和浸没式液冷子项目。
该项目旨在通过数据中心不同冷却方法之间的跨项目协调,实现物理接口的标准化,从而加速液冷技术在数据中心内部的创新步伐。
ORV3的推出,以及围绕其构建的生态系统,正在深刻地改变数据中心的设计、部署和运营方式。
ORV3通过开放设计和标准化,鼓励了更多厂商参与到数据中心硬件的研发中来,例如Supermicro等公司已经推出了支持OCP V3.0 SFF卡的MegaDC服务器,并支持OpenBMC等开放标准,旨在简化管理和维护。这种开放协作模式有助于降低成本,提高供应链的灵活性,并加速新技术的采用。
AI工作负载的特点是计算密集型和高能耗,对数据中心的电力和散热能力提出了前所未有的要求。ORV3正是为应对这些挑战而生,其高功率设计和对液冷解决方案的兼容性,使其成为支持未来AI基础设施的关键。Meta正在积极更新其Open Rack v3整流器、电源架、电池备份和电源管理接口规范,以适应更强大的AI架构。
上方的雷达图直观地展示了OCP OR V3在数据中心关键性能维度上的优势,并与传统19英寸机架和OCP OR V2进行了对比。可以看出,OR V3在功率密度、能效优化和散热能力方面表现突出,这得益于其48V供电和优化的散热设计。同时,它在开放性、可维护性和未来扩展性方面也保持了高水平,体现了OCP开放协作的宗旨和面向未来的设计理念。
为了更好地理解OCP OR V3的进步,下表对比了不同OCP版本和传统机架的关键特性。
特性 | 传统19英寸机架 | OCP Open Rack V2 (ORV2) | OCP Open Rack V3 (ORV3) |
---|---|---|---|
主要供电电压 | 交流(AC)或12V直流(通过独立电源) | 12V直流(集中式母线) | 48V直流(集中式母线) |
机架宽度 | 19英寸 (约482.6 mm) | 21英寸 (约533.4 mm) | 21英寸 (约533.4 mm) |
电源效率 | 相对较低(每设备独立电源) | 较高(集中供电,节省15%-30%) | 更高(48V供电,适用于AI高功耗) |
最大功率密度 | 较低 | 中等 | 极高(可达1MW) |
散热方式 | 主要风冷 | 风冷为主,部分支持液冷 | 支持高效风冷,积极推动液冷(冷却环境项目) |
可维护性(NIC) | 需打开机箱 | 需打开机箱(OCP Mezz 2.0) | 免开盖热插拔(OCP NIC 3.0) |
PCIe 支持 | Gen3/Gen4 | Gen3/Gen4 | Gen4/Gen5 |
核心应用场景 | 通用服务器,传统数据中心 | 超大规模数据中心 | AI/ML、高性能计算、超高密度数据中心 |
这张表格清晰地展示了OCP OR V3相对于前代和传统解决方案在技术上的飞跃,尤其是在应对现代数据中心对高功率、高效率和易维护性需求方面的优势。
OCP OR V3的部署涉及从机架到服务器,再到网络和电源管理的全面优化。企业和技术提供商正在积极采纳和贡献ORV3相关技术。
ORV3生态系统包括了各种兼容组件,例如:
除了硬件,OCP的开放理念也延伸到软件层面。例如,OceanBase Cloud Platform (OCP) 提供图形化管理功能,用于OceanBase数据库及相关资源的全面生命周期管理、监控、告警、性能诊断和故障恢复。它支持OceanBase社区版3.1.2及以上版本,通过Docker容器技术方便自动化部署,显著降低了运维成本。
OCP的许多项目,如OCP L.O.C.K. (Layered Open-source Cryptographic Key) 和OCP Flashless Boot Update,都在推动数据中心的安全性和启动效率的开源解决方案。