OCI的崛起:不止软件
Oracle云(OCI)的卓越不仅源于软件,更依赖强劲的硬件底座。Exadata作为核心硬件,为云端数据库服务提供坚实支撑,并借助Oracle Database 23ai的融合与AI向量能力,奠定AI数据处理基础。本文将深入解析OCI硬件的最新演进,带你了解SuperCluster的回归与AI算力集群的构建。
数据库管理-第347期 OCI的崛起,不止软件(20240709)
(图:胖头鱼的鱼缸4_01.png)
一个优秀的云,除了优秀的软件以外,也需要有足够强大的硬件底座。大家对Oracle硬件的映像,除了当年收购了SUN以外,最多了解的可能就是数据库一体机,主要包含Oracle Exadata和Oracle Database Application(ODA)。在Oracle云(Oracle Cloud Infrastructure,OCI)上,Exadata也作为硬件底座,为云上提供强劲的数据库服务,通过多云合作,还在多个公有云实现了相同的数据库能力。结合Oracle Database 23ai提供的融合数据库与AI向量搜索能力,为AI提供了强劲的数据处理能力。
SuperCluster
当然本期不仅是谈OCI上的Exadata,AI时代除了数据处理能力以外,还有一样东西也是AI急需的,那就是算力,而目前的AI技术架构中主要需要的就是GPU。以前Oracle也是有一个大型机的硬件架构——SuperCluster,这个东西我确实是没见过。
(图:image.png)
随着X86 CPU的飞速发展,Oracle也逐渐放弃了SPARC CPU,SuperCluster似乎也逐渐远离我们的视线。但是随着Oracle云上战略重心的变化,AI成为核心发展方向,SuperCluster用另一种形态回归——AI算力集群。
能力
OCI上的SuperCluster带来了以下能力:
- 最多可支持131072颗Nvidia BlackWell GPU(B200)提供高达2.4 zettaflops峰值性能
- 集群网络以每个端口400Gbps的速度提供52Pbps的非阻塞网络带宽
- 集群网络延迟低至2µs
网络
(图:Medium.jpg)
在网络层面,通过RDMA(RoCE)实现了:
- 极高的吞吐量
- 极低延迟
(图:Medium 1.jpg)
- 高级链路弹性,增强工作负载可靠性
(图:Medium.jpg)
- 高级流量负载平衡
(图:Medium 2.jpg)
存储
除了网络以外,通过OCI文件存储(OCI File Storage)及其新的高性能装载目标(HPMT)功能,在单个文件系统中实现每秒TB的吞吐量。还将很快推出一个完全托管的Lustre文件服务,每秒可以支持数十TB。为了匹配增加的存储吞吐量,OCI GPU计算前端网络容量从H100 GPU加速实例的100 Gbps增加到H200 GPU加速实例中的200Gbps,B200 GPU和GB200实例的每个实例为400Gbps(每个NVL72机架的总容量为7200Gbps)。
总结
综上,OCI通过多方位硬件整合构建了高算力、高吞吐、低延迟的GPU算力集群,配合Oracle Database 23ai与Exadata提供的融合数据库,为AI时代提供了坚实且智能的硬件底座。