环球经济报道
当前位置:主页 > 数码 >

邬贺铨提出算力十大思考,建言从实战中学习创新

  时间:2022-08-01 08:34:00     来源: 网络    阅读量:5434    

邬贺铨提出算力十大思考,建言从实战中学习创新

近日,2022中国计算大会在济南开幕,ldquo为高质量发展奠定基础;在主题主论坛上,中国工程院院士吴发表了《ldquo for Data Center数学rdquo用ldquoRdquo思考》,提出关于计算力的十点思考。何泉解释ldquo数学rdquo即研究数据的科学,ldquoRdquo也就是计算力的技术。

算还是存?

何伟表示,AI应用驱动的计算能力需求正在快速增长。基于GPU/NPU/FPGA的AI智能计算中心适合训练数据导出模型。

训练完数学模型后,使用深度神经网络不需要调度很多参数,降低了对计算能力的需求。基于CPU的通用计算能力IDC适用于已知数学模型下的计算任务。

何泉指出,是否可以认为AI智能计算中心的主要任务是计算,IDC的主要任务是保存?

三种算力的合理比例是怎样的?

目前,计算能力可分为基础计算能力、智能计算能力(基于GPU和NPU芯片)和超级计算能力(基于超算)。

从2021年全球计算能力分布来看,美国占31%,中国占27%,其次是日本、德国、英国等国。美国基础计算能力占全球35%,智能计算能力占15%,超级计算能力占30%,中国三类分别占27%、26%、20%。

何泉说,可以看出,美国是以基础计算能力为主,中国的智能计算能力远远超过美国。中国的超算和AI智能中心由政府主导,基础计算能力由运营商和互联网公司主导,而美国由互联网公司主导。

冷数据和热数据

IDC数据显示,人类历史上90%的数据是在过去几年产生的,50%是在短短两年内产生的。据预测,到2025年,数据量每年增长30%,即两年增长70%。

一般来说,最近生成的数据是热数据,一周或者几个月后就会变成温或冷的数据。冷、暖、热数据分别占累计数据总量的80%、15%、5%左右。

冷数据主要存储,计算需求异常。东西方适合处理冷热数据,从东往西算其实就是从东往西算。

计算分离和内存计算

内存分离架构在控制单元的指令下从内存中读取数据并提交给CPU进行计算,得到的结果需要送回内存。而对于冷数据的I/O并不频繁,所以更适合冷数据处理,比如云平台建模、边缘计算训练、仿真等。此外,开放式存储系统和磁带存储介质可用于存储和计算的分离,存储可同时服务于多台服务器。池化存储支持多云条件,利用率高,降低成本,减少能耗。

而热数据需要快速计算,却受限于内存与计算分离的I/O瓶颈,CPU容量受内存访问速度影响,难以充分发挥,因此需要内存计算。内存技术用RAM代替硬盘,所有操作都在RAM中完成。比如自动驾驶可以在车内同时完成存储和计算,但目前实现起来比较复杂,成本也很高。

何泉表示,西部地区虽然主要处理冷数据,但也需要处理局部热数据。冷数据和热数据是否需要不同的存储和计算结构?

封闭系统存储和开放系统存储

一般来说,服务器由CPU和内存组成。如果把存储放在一起,就叫封闭存储系统,但是容量有限。所以在大多数情况下,存储是和服务器分开的,也就是开放系统存储,这样存储容量可以被多台服务器共享,通过池化可以支持云应用。不同的存储架构适应不同的任务,可以根据任务实施软件定义的存储。

PUE和IT能效

PUE是数据中心能耗与IT系统能耗的比值,反映制冷系统的水平,但不衡量IT系统的能效。据统计,在IDC的IT系统能耗中,服务器约占50%,存储系统约占35%,网络通信设备约占15%。

数据中心需要7*24小时工作,但并不总是按7*24小时计算,在非计算状态下也要消耗能量。此时,存储系统的能耗成为主体。根据麦肯锡报告,大部分电能用于维持服务器状态,只有6-12%用于计算。

所以要降低能耗,一是用磁带代替磁盘进行冷数据存储。预计十年后100PB的存储成本可以降低73%。其次,热数据存储使用闪存代替磁盘,提高访问速度、吞吐量和能效,但目前成本仍然较高;此外,我们应该探索通过数据预处理提高能源效率的方法。

数据可信度和灾难恢复保护

数据最重要的是安全。目前,有两种主要的灾难恢复保护方案。是三份方案,容量利用率低,但读写快,适合小文件;第二种是4+2纠删码方案,容量利用率高但读写慢,适合大文件场景。这时候就需要思考,大小文件是否需要分区域存放,才能采用不同的可靠性技术方案?

同时,容灾是数据中心的刚性需求。华为/罗兰·贝格报告显示,美国数据保护占存储投资的33.3%,全球平均水平为27.4%,而中国仅为7.8%,异地备份比例更低,防灾能力堪忧。

另外,值得研究的是数据备份还是电脑备份?计算力和保存力需要等比例备份吗?

关于计算与存储合作的思考

根据华为/罗兰·贝格的报告,中国的储蓄账户比是美国的两倍,这导致中国的计算能力利用率很低。可以理解为,虽然计算能力是有的,但是存储跟不上。然而,存储-计算比率不是固定的。比如冷数据的计算频率低,存储-计算比要高于热数据。所以,冷数据和热数据的合理比例应该是多少,值得思考。

此外,带宽和每秒操作数(IOPS)是衡量存储性能的两个主要指标。前者需要聚合更多存储单元的带宽,后者希望减少每个数据访问请求涉及的存储单元数量。两者很难兼得。从计算任务调度入手,可以提前向存储系统提供该任务的IO模式信息,从而制定有针对性的缓存策略和数据一致性策略,甚至将数据调度到合适的存储位置,以获得更好的数据存储效率。

关于计算网络容量比率的思考

2021年,全球数据中心流量分布在数据中心占71.5%,从数据中心到用户占14.5%,从数据中心到数据中心占13.6%。主辅数据中心之间的数据传输需要同步动态更新数据,实时性高,但每次更新的数据量并不大。但是对主备链路的可靠性要求很高,通常需要端到端的双路由。

此外,东西方数据中心之间的传输系统容量是双向不对称的。从东到西,从热到冷的数据会有规律的转移,数据量大,但实时性要求不高,瞬时带宽不一定要很高。西方的数据计算结果需要传回东方,这个量并不大,但对实时可靠性要求很高。东西方数据中心之间的链接需要从数据中心到城市的双路由。中国需要更多的研究和经验数据来确定数据中心和用户之间传输信道容量的最优设计。

关于东西方数计算的思考。

东西计算使得计算设施的布局超出了数据中心hub的范围。虽然假设东西方是互相配对的冷热数据,但是东西方应该有多大的比例呢?

以广东数据中心的规划为例,70%的计算能力在省内,30%的计算能力在省外进行设计,与冷数据的80%相差甚远。你理解的80%的冷数据指的是存储容量而不是计算能力吗?另外,在市场经济条件下,东西方并不是固定的一对,那么各自独立的设计部门如何做到产能最大化?

同时,在同一个数据中心枢纽或集群中,有许多比例需要优化。数据中心hub里有很多数据中心,每个数据中心都有很多所有者。如何实现枢纽内各数据中心所需能源和网络资源的集约化,建立业主间的资源共享机制,提高利用率。每个数据中心都需要设计一个合理的计算能力、存储能力和网络容量的比例,以及相应的容灾比例,根据数据的冷热程度会有不同的优化。数据中心从长远来看需要建设能效更高的大型数据中心,但不应该一步到位。

此外,Gartner认为,2025年,超过75%的数据将在边缘侧处理,需要规划边缘和集群数据中心的计算能力比例。

最后,何何权说,关于数据中心的ldquo数学rdquo用ldquoRdquo还有很多需要深入研究,要善于从实战中学习和创新。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。