6 月 13 日,阿里云智能总裁张建锋在峰会上正式发布 CIPU(Cloud infrastructure Processing Units),这是为新型云数据中心设计的专用处理器,未来将替代 CPU 成为云计算的管控和加速中心。

在这个全新体系架构下,CIPU 向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机。

阿里云智能总裁张建锋发布 CIPU

例如,CIPU 与计算结合,快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;CIPU 与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储 IOPS 最高可达 300 万,长尾时延降低 50%;CIPU 与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性 RDMA 高性能网络,时延最低可达 5us。

CIPU 架构示意图

基于 CIPU 和飞天的新一代云计算架构体系,在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能。在通用分布式计算领域,Redis 性能提升了 68%、MySQL 提升了 60%,Nginx 提升了 30%;高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了 30%,业务高峰期延迟下降了 90%;在大数据和 AI 等计算与数据双密集场景下,相比传统的 TCP 网络,弹性 RDMA 高性能网络的吞吐能力提升 30%以上;云原生方面,容器启动速度快了 350%,在 Serverless 场景下 6 秒可拉起 3000 个弹性容器实例。

CIPU 特性简介

为什么要有 CIPU?张建锋认为,过去十多年,云计算技术经历了两个发展阶段:第一阶段是分布式和虚拟化技术替代了大型机,满足了当时企业所需的算力规模;第二阶段出现了资源池化技术,以阿里巴巴为例,通过计算存储分离架构,将计算、存储、网络资源分别池化,突破了规模和稳定性的瓶颈,提供了超大规模的云计算服务。

但随着数据密集型计算场景的普及,用户对低时延、高带宽的需求也越来越高,传统以 CPU 为中心的计算体系架构无法适应这一趋势。为了解决这一问题,阿里云相关研发团队早在 2015 年就开始技术攻关,并于 2017 年推出业内首款虚拟化损耗为零的神龙云服务器。经过多年自研迭代,神龙、弹性 RDMA 等核心技术不断深入垂直整合,演进出以 CIPU 为中心的全新架构形态,云计算开始进入第三阶段。

如今,阿里云建立了自研的芯片、服务器、飞天操作系统等软硬一体的基础设施。这些基础设施有力支撑了阿里云产品的四大核心:神龙计算、盘古存储、洛神网络和安全内核。在国际权威机构 Gartner 发布的年度报告里,阿里云获得计算、存储、网络、安全 4 项单项最高分以及 IaaS 整体基础设施能力的全球最高分。