云计算:百年大计从头算
计算就是国力“50多万年前,关键词是光明和黑暗。
50多年前,关键词是数字和模拟。今天,关键词是线上线下。
这是我五年多前和阿里云创始人王坚博士交流时,他的观点。
线上和线下有什么区别?比如说。就像走路一样,线下就是路。我不知道谁在走。是的,无论谁在网上走的每一步,路都会被记下来,脚印会变成数据。
比如说。离线时代,软件公司开发的软件安装在光盘上。在上市之前,测试方法是让普通用户进入装满单向玻璃的实验室,通过摄像头拍摄、问卷调查等方式记录他们的行为。
或者去用户的办公室现场观察他如何使用软件。通过观察、统计、分析,发现设计缺陷,反复修改,然后发布。
在网络时代,无论软件设计者想了解什么问题,都可以编写代码,在用户使用时通过网络自动采集相关数据并发送回软件公司。
这样不仅用户的反馈常态化,所有行为都发生在真实场景中。顶级专家总能把深奥的东西变得简洁。当时,王建向我描述了“在线”的——。
每次点击、网上购物、访问网页、输入键盘,你都已经在线;你的手机有运动传感器,每一次波动都在线记录。你手机的GPS设备会根据最新的在线数据改变你的位置。
你的眼镜也在线。谷歌眼镜的推出意味着你看到的每一张图都将是网络社会的源头。你的车也在线,车内的内置设备一直连在网络上;你客厅的电视也在线。
当你看电视的时候,你所有的面部表情、体温体征、眼神焦点都在不知不觉中被电视自带的摄像头传回,成为广告反馈的数据之一;你的睡眠也在线。
只要你把智能手环戴在身上,它就能在你睡觉的时候,在你睡着的时候,监控你有多投入。”听了他的描述,我立刻明白了:因为信息、传感、通信等技术的发展,一切都可以在线,一切都依赖于计算,计算正在改变一切。
就像手机一样,以前只有通话能力,现在什么都可以。
因为它背后的计算能力比1969年人类首次登月时阿波罗11号安装的导航计算机强大数百万倍;就像汽车,以前强调的是“马力”,今天比拼的是“算力”,因为汽车就像四轮超级计算机。
既然所有的力量都和计算能力有关,没有强大的计算能力,在这个数据驱动的时代注定是不可能的。
计算就是国力。建设网络强国和数字中国的本质是建设计算强国。
2009年,阿里云以“云计算将取代传统IT设备,成为互联网世界的基础设施”为理念创立。
它致力于以在线公共服务的形式提供安全可靠的计算和数据处理能力,使计算和人工智能成为一种包容性的技术。阿里云现在是全球第三大云服务提供商,是中国经济、数字生活、社会治理的基础设施之一。
人类的线下文明有5000多年,而线上文明才刚刚开始不到20年。
一切都在改变。在这两天举行的2022云起大会上,阿里云智能总裁张建锋提出,云计算正在重构整个IT软硬件系统和终端世界,形成一个全新的计算系统,具体体现在三个方面:整个IT硬件系统的重构;软件研发范式的深刻变革;云和端加速融合,计算能力从端向云转移。未来的一切都将是电脑。
除了2017年听王坚讲过云计算,我没去过阿里云面试。但是“全新计算系统”的概念吸引了我。
我想知道它到底是什么意思。两位阿里云的技术大咖接待了我,一位是阿里云高级研究员、阿里云基础事业部负责人蒋,另一位是蒋林泉,研究
而云计算则是控制后端的很多服务器和分布式存储协同工作,其复杂程度远远超过一个CPU的能力。所以我们要把协同管理的这部分责任从CPU上卸下来,‘卸载’到CIPU,然后加速CIPU,让I/O的瓶颈畅通无阻。
一个文件包进来了,原来的做法是用CPU处理I/O..包在CPU和内存里动来动去,要花很长时间才能出去。
CIPU芯片就是把这些东西(逻辑)封装在CPU里,把它们变成一个单一的芯片,进行直接通信。
未来,所有更适合CIPU的IO链路上的计算任务都将由CIPU来完成,这样CPU就有了空闲,可以处理自己擅长的正常逻辑,整个程序的运行速度也会更快。打个比喻,原来整个列车都是由机车带动的,也就是CPU的计算能力。同时,所有轮子的配合也依赖于CPU。
现在和高铁一样,用CIPU来控制各个车轮,独立配合,这样速度就上来了。
到目前为止,我大致理解了‘全新计算系统’的含义。
曾几何时,IOE(IBM的小型机,Oracle数据库,EMC存储设备)是一个没人敢撼动的架构,但它确实满足不了阿里电商的需求,而且成本太高。
于是阿里毅然决然的进行了系统重构,“去IOE”换成了在开源软件基础上开发的系统,用MYSQL代替Oracle,用PCServer代替EMC2和IBM小型机,等等。
这次阿里云也是要突破基础架构。它将以软件定义的方式在CPU中运行其飞行操作系统,然后拆解一些任务在自研的CIPU上运行。根据在30多个场景中的测试,新架构的效果非常明显。
例如,在缓存场景中,所有种类的互联网服务都涉及到缓存。
有一个开源的数据结构存储系统叫做Redis。在相同的CPU配置下,通过CIPU加速,其服务吞吐量可以提升100%,性能可以提升一倍,从而使该场景的计算成本降低一半,降低延迟,提升应用体验。
又如,通过CIPU的eRDMA能力,数据库可以实现多节点全局一致读取的超高性能。这有什么价值?比如电商经常存在超售客户库存的问题。你得给顾客打电话,说我们超卖了。请关闭订单。
但是有的客户就是不同意,说我已经买成功了。比如电商卖一个杯子,准备100个杯子,打折出售。结果消息一出,几十万人冲进去抢,而股票只有100。
系统的要求非常严格。只有一个人可以进来。
扣除他的库存,第二个人才能进来,以此类推。否则,就会出现混乱。但这样做,个人进来效率低,必须牺牲绩效。但是用CIPU加速这段代码后,还是一个人进来,但是效率可以提升5到20倍,大大降低了这个场景下的计算成本。
如今,阿里云在云上使用自研CPUCIPU的完整计算架构解决方案,可以全方位提升计算效率。这注定是一条漫长的路,但这种旨在从根本上改变人们习以为常的计算架构的探索,让我充满敬意。
百年工程到了关键时刻。阿里云在追求新的计算系统,不仅在硬件上,在软件和终端厂商上也是如此。
张建锋表示,新兴的软件开发方式正在兴起,整体无服务器软件架构(serverlesscomputing)是大势所趋;软件开发不再是程序员的专利,低代码可以让80%的未来应用直接由业务人员自己开发;未来所有软件都将面向AI,大模型开源将加速AI的真正普及;在终端,由于云的加速融合,终端突破了物理限制,不仅把手机、电脑、汽车、音箱都推到了电脑里,未来还会让一切都变成电脑。新的计算系统给我们带来了新的想象,许多想象都变成了现实。