以网补算 构筑智算时代新底座
来源:通信世界全媒体 时间:2024-06-03 16:36

  ChatGPT爆火之后,人工智能(AI)浪潮来袭,以大模型为代表的AI方案逐步深入千行百业,算力需求日益攀升,智算基础设施的重要性进一步凸显。然而,在智算基础设施建设过程中,尚面临组网、通信、能耗、成本等多重挑战,行业要“以网补算”,通过无处不在的网络资源,补齐单点算力规模不足的差距,夯实智算业务发展基础。

  智能算力成为支撑数字经济发展新引擎

  在网络强国和数字中国战略的引领下,以人工智能为代表的新一代数字技术在我国加速演进,并深度融入生产生活的各个环节,成为促进数字经济跃迁式增长的重要驱动因素。随着各类通用大模型和垂直大模型的落地应用,算力作为支撑人工智能蓬勃发展的基座,呈现出前所未有的指数级增长态势。

  从算力规模看,大模型的发展离不开强大的算力支撑。大模型具有“智慧涌现”能力,即当模型规模突破特定阈值后,其语言理解、内容生成、逻辑推理等类人智能任务的处理能力将显著提升。例如,拥有1.8万亿参数的GPT-4在复杂问题的处理能力方面远超GPT-3,谷歌的Gemini大模型性能也超越其早期版本。随着参数规模从亿级提升到万亿级别,算力需求呈现“爆发式”增长,训练算力需求从千卡迈向万卡,微调算力需求也将达到百卡规模。以“大力出奇迹”改善模型性能的行业共识,牵引着算力尤其是智能算力需求快速增长。据英伟达预测,未来10年间,深度学习的计算能力将提高100万倍,即每个月人工智能算力将提升4倍。

  从算力结构看,人工智能的突破式发展,推动了传统算力供给模式的系统性重塑,即由以CPU为主的通用算力供应演变为“通智超”一体化供应,其中智能算力的增长趋势更加明显,成为塑造人工智能领域新模式、新业态的核心驱动力。IDC与浪潮信息联合发布的《2022—2023中国人工智能计算力发展评估报告》指出,我国人工智能计算力继续保持快速增长,2022年智能算力规模达到268EFlops,超过通用算力规模。预计到2026年智能算力规模将达到1271.4EFlops,未来五年的年复合增长率达52.3%,而同期通用算力规模的年复合增长率为18.5%。我国算力结构的演进趋势深刻印证了以大模型为代表的智能化应用对智能算力的高度依赖。

  作为智能算力的主要载体,智算基础设施的发展对技术进步和行业应用起到了决定性作用。在人工智能向场景化、规模化、融合化演进的过程中,预训练的数据体量和算法模型的参数量还将急剧攀升,智算基础设施也将逐渐具备高性能、高互联、泛在化、多元化等竞争力标签。

  智算基础设施建设仍面临多重挑战

  从工程角度讲,智算基础设施是指以GPU等AI训练芯片为基础构建的智能计算服务器集群,它不仅包括计算、存储、网络等硬件基础设施,还包括多样化的机器学习框架、算法和相关的工具软件。为形成规模效应,智算基础设施往往以集群的形态对外提供资源服务。然而,在以集群为主要呈现方式的智算基础设施建设中,还面临多重挑战。

  首先是组网规模的挑战。网络能力和计算能力应高度匹配,AI大模型训练需要将数千甚至数万颗GPU芯片互联,以实现并行计算,集群体量远超以CPU为主的传统数据中心。例如,采用主流64口交换机的数据中心通过3层CLOS架构能最大支持6.5万个服务器接口,而这依然无法满足我国“十四五”规划中提出的“10E级超级计算中心”的组网目标。

  其次是通信性能的挑战。在大模型训练场景下,机内GPU通信和机外集合通信将产生大量通信需求。例如,千亿级参数的大模型并行训练所产生的集合通信数据将达到数百GB量级,若要在极短时间内完成参数交换,将对GPU与GPU间、GPU与网卡间、网卡与网卡间的超高带宽互联提出较高要求。此外,网络拥塞和丢包将严重影响GPU计算效率,据实验统计,0.1%的网络丢包率就会带来50%的算力损失,因此提升通信性能可有效释放智能算力。

  再次是能耗和成本的挑战。模型训练需要消耗大量能源,因此智算中心比传统数据中心消耗了更多电力。OpenAI曾发布报告称,自2012年以来,AI训练的电力需求每3~4个月就会翻一倍。前不久,微软工程师被问及为什么不把集群整体建设在一个地方时,他指出,把超过十万颗H100芯片集中到同一个地方将导致当地的电网瘫痪。因此,业界有观点认为“比特的尽头是瓦特”,智算的发展要以绿电发展为基础。此外,智算中心厂房等基础设施建设,服务器、芯片等设备购置,后期升级运维扩容等,共同构成了智算中心庞大的成本体系,因此成本挑战也不容忽视。

  最后是技术兼容性的挑战。许多智算中心在市场和自身发展的过程中,形成深度集成的异构技术体系,芯片平台、通信协议、算法模型、应用层面处于一体化垂直的“孤岛”状态,软硬件系统缺乏兼容性,为智算中心后期的升级、扩展、迁移造成了极大困难。

  综上所述,现阶段仅依靠单点技术突破或者“暴力堆叠”芯片的传统思路已无法解决智算基础设施的供应难题,需统筹组网、通信、能耗、成本、技术等多维因素,提供泛在互联、融合高效、集约共享的新型基础设施。在此背景下,“以网补算”应运而生。

  以网补算,破解智算基础设施供给难题

  “以网补算”,即利用无处不在的网络资源弥补小规模智能计算的差距,再结合集中式的算力调度策略,提升整网智算利用率。“以网补算”是夯实大模型基础设施的重要发力方向,包含“入算、算内、算间”三个组成部分。

  对于“入算”部分,灵活利用闲时资源为智算业务降本增效。当前入云专线存在价格偏高、带宽使用方式僵化等问题。“以网补算”方案在持续完善网络覆盖、提供智算高速泛在入口的基础上,还针对业务的偶发性特点,提出定时定向的大规模数据传输方案,并通过定制化API接口让用户自助申请网络闲时的带宽资源,从而将原本带宽受限的网络线路弹性扩容至高带宽专线,并采用资源预约的机制将数据传输至智算中心进行处理,在满足超大规模数据弹性传输需求的同时,降低算力使用成本、增强用户自服务能力。

  对于“算内”部分,重点解决因网络能力不足导致算力效率降低的技术问题,以及单点算力规模偏小导致集群能力不足的产业问题。目前业界主要从四个技术维度解决智算网络端到端承载的效率问题,即集合通信库、拥塞控制、流量控制和负载均衡,具体解决方案分别聚焦端侧、网侧和端网协同侧。例如,端侧通过优化集合通信库减少网络通信开销,通过拥塞控制从源头消除拥塞等。此外,我国智算中心单点规模普遍偏小,可通过长距RDMA(远程直接数据存取)等新技术在城域范围内整合多个小型计算资源,实现区域内智算中心的高效协同。

  对于“算间”部分,建立面向异构资源的全国一体化管控机制,实现多用户、多作业的任务分发调度。一方面提升算间网络连接能力,实现多云、多算力灵活互联,提高数据传输效率;另一方面构建面向用户级、业务级的层次化任务调配系统,着力实现集分权分域、业务感知、统一调度功能于一体的全国一体化智算调配平台。对于算力调度平台,业界已有诸多成功实践,可有效应对智算中心算力不足的问题,实现全局智算资源在更广范围内的高效利用。

  先试先行,中国电信积极践行“以网补算”策略

  面对新时代、新业态、新要求,中国电信积极践行云网融合的发展理念,按照“网是基础、云为核心、网随云动、云网一体”的思路不断探索实践,目前已演进到以智算网络为核心的云网融合3.0阶段。

  作为云网一体阶段的关键策略,中国电信采用“以网补算”,打造面向智算业务的新型基础设施,以高性能智算网络作为提升集群算力性能的关键抓手,突破智能算力供给瓶颈。

  一是推出具有“泛在接入、随建随用、算网协同、安全可信”特性的“超算快线”产品,提供海量数据异属、异构、异域“入算”的统一解决方案;联合中科院高能物理研究所和成都国家超算中心,开展LHAASO数据基于“超算快线”传送方案的创新试验验证;实现业界首次40分钟内跨2000千米传输1.6TB数据,为“东数西算”海量数据跨域自动调度提供了创新解决方案。

  二是打造云网融合“大科创装置”。作为科研专用网络,“大科创装置”承担科研攻关、测试认证、人才培养和用户体验等多方面任务,具备覆盖14个省、40个节点(20个骨干节点和20个接入节点)的广域互联底座,为智算中心各项试验奠定了坚实的网络基础。基于“大科创装置”,中国电信成功解决了超百千米无损智算网难题,使智算DCN(数据通信网络)由DC内走向广域网。同时,中国电信于2023年10月启动基于云网融合“大科创装置”的长距无损交换机技术验证,今年2月在北京电信现网完成800G超高速波分技术验证。此外,中国电信还在武清、永丰、瀛海三地IDC机房完成数百亿参数经典大模型的分布式训练任务,对京津冀算力协同起到积极的推动作用。

  三是自研拥塞控制算法CTCC,通过端侧精细化流控与运维工具,有效控制交换机队列长度、降低小流延迟,实现部分配置下的“零丢包”。针对天翼云智算、超算、高性能存储业务场景需求,中国电信依托“大科创装置”,采用多厂家交换机、GPU服务器和全闪存储服务器进行了组网测试,开展的800多项测试验证结果均符合理论分析与仿真预期。

  此外,中国电信还基于国家重点研发计划“多模态网络与通信”中重点专项项目“多模态智联计算网络技术研究与验证”和云网融合联合实验室等平台,携手“产学研用”各方加快突破智算网络关键技术(如存转算一体、意图驱动路由、统一总线UB等)。

  当前,伴随网络、计算、存储技术的迭代升级,各类资源正在产生深刻的“化学反应”,从相互独立逐步演进到融合一体,形成以满足多元化应用需求为目标的智算基础设施体系。在此进程中,中国电信基于“入算+算内+算间”的发展思路,“以网补算”,通过无处不在的网络资源,补齐单点小规模算力差距,夯实智算业务发展基础。未来,中国电信将持续发挥网络资源优势,深化具有云网融合特征的智算体系建设,纵深推进产业转型升级,助力数字经济点燃高质量发展新“引擎”。

附件下载

扫一扫在手机上查看当前页面

相关链接