以网络赋能算力构建智算时代新型基础设施 _ 信息化动态

以网络赋能算力构建智算时代新型基础设施

来源：通信世界全媒体时间：2024-05-13 08:11

　　2022年11月问世的ChatGPT以其高质量的语言生成能力、强大的文本理解能力以及广泛的应用场景，迅速成为业界关注的焦点，助力大模型成为AI（人工智能）应用新前沿。公开资料显示，截至2023年11月，国内至少有200家大模型厂商推出各自的大模型产品，其中通用及金融垂直领域大模型落地最快。随着AI技术的高速发展，以生成式大模型为代表的AI方案从专业技术领域渗透到生产生活的多个领域，各类智能化应用在经济建设、科技创新、生产力提升等方面扮演着越来越重要的角色。

　　为获取更好的模型性能，充分激活产业赋能效应，大模型的参数规模逐步增加到万亿级，并逐步向百万级超长序列发展，促使大模型训练、微调、推理各阶段算力需求日益攀升，智算基础设施的重要性和价值进一步凸显。然而，在智算基础设施建设过程中，尚面临投资、能耗、技术、竞争等多重挑战，因此，兼顾技术可行性和经济可行性，利用网络资源禀赋提升算力效能，构建以应用为导向、资源融合为核心的算力供给体系，是智算时代构建新型基础设施的关键举措。

　　永无止境的算力需求

　　早期如围棋机器人AlphaGo等专用AI模型，其参数量一般仅为百万量级。而第一代生成式预训练模型GPT-1的参数规模就已达到1.17亿，GPT-2增加到15亿，GPT-3则扩展到1750亿，仅模型训练阶段所需算力当量就相当于1000PFlops智算中心训练3.6天。GPT-4的参数规模约为1.8万亿，折合算力当量为249个PD（PetaFlops-Day），需要1000PFlops智算中心运行长达249天才能完成训练过程。

　　此外，在模型推理即日常运营阶段，人机交互带来的数据处理需求同样是一笔不小的算力开支。以ChatGPT为例，OpenAI前期发表的论文《ScalingLawsforNeural LanguageModels》显示，推理阶段算力需求是模型参数数量与训练数据集规模乘积的2倍，假设每轮对话产生500tokens（约350个单词），则每轮对话产生的算力需求为0.175PFlops，如果按照ChatGPT每日2500万的访问量，假设每次访问发生10轮对话，则所需算力为4.375×107 PFlops。综合考虑有效算力比率因素，则ChatGPT每日对话实际算力需求约为1.46×108PFlops。在迭代微调阶段，即面向各类细分行业的大模型应用，算力需求与模型迭代速度存在正相关性，更快的迭代速度往往伴随着更高的算力消耗和更大的成本支出。

　　因此，大模型的蓬勃发展牵引着算力尤其是智能算力需求的快速增长。据英伟达测算，未来十年算力每年将增长4倍，十年以后累计增长100万倍。对于我国算力的发展，IDC和浪潮信息联合发布的《2022—2023年中国人工智能计算力发展评估报告》指出，2022年中国智能算力规模达155.2EFlops，预计到2026年将达到1271.4EFlops。2021—2026年期间，预计中国智能算力规模年复合增长率达52.3%，同期通用算力规模年复合增长率为18.5%。我国算力结构的演化趋势进一步印证了以大模型为代表的智能化应用对智能算力的高度依赖，智能算力正在成为支撑AI稳步发展的新动力、新“引擎”。

　　作为智能算力的主要载体，智算基础设施的建设是大模型发展的重要环节。智算基础设施是指以GPU等AI训练芯片为主构建的智能计算服务器集群，包括计算、存储、网络等硬件基础设施，以及多样化的机器学习框架、算法和相关的工具软件等。随着AI大模型逐步进入稳健发展期，通过智算的生产、聚合、调度和释放，为AI应用提供更大的计算规模和更快的计算速度，提升单位时间单位能耗下的运算能力和质量成为核心诉求。

　　智算基础设施建设是一个长期过程，难以一蹴而就

　　国家信息中心联合浪潮信息发布的报告显示，“十四五”期间，在智算中心实现80%应用水平的情况下，城市/地区在智算中心建设投入方面的增加对创新产出的贡献率约为14%~17%。智算中心是服务于AI应用的数据计算中心，是智算基础设施的主要形态，如何建设支撑大模型发展需求的智算中心等智算基础设施，不仅涉及计算芯片、互联网络、节能减碳、开发框架等技术问题，还需要考虑投资成本、运营维护、升级演进等商业因素，同时兼顾技术可行性和经济可行性。

　　从技术角度讲，构建统一的超大型智算中心是最为理想的解决方案，该方案具有高效的数据处理能力和存储效率，可为广泛的应用场景提供强大的“算力底座”，但在实际过程中，该方案会遇到多方面的挑战和制约，在现阶段是难以实现的。

　　首先是投资成本的挑战。相比于超级计算中心（简称“超算中心”），虽然两者都需要大量的资金和时间投入，包括硬件设备购置、基础设施建设、软硬件平台开发等，建设周期往往从几个月到几年不等；但与超算中心涉及气象预报、地震模拟等国计民生领域不同，智算中心更关注产业智能化升级和潜在的经济效益，高额的投资成本将在一定程度上影响企业投资决策。但反过来讲，如果只考虑智算基础设施的出租业务，供应方仅需具备资本、土地和能耗指标就可以投资智能算力，入行门槛较低，因此已出现一批跨界而来的智算基础设施建设运营方。

　　其次是散热、供电等能源消耗的挑战。大模型是名副其实的“耗电大户”，某AI创新公司的联合创始人在社交平台上分享了他与微软工程师的对话，微软工程师指出，GPT-6的训练集群项目之所以没有选择将训练集群集中在同一个区域，是因为根据尝试后的经验，在同一个区域放置超过10万块H100GPU会导致电网瘫痪。在AI的成本结构中，电力是继芯片之后的又一核心成本。拥有1700多亿参数的BLOOM模型，仅前期训练阶段，耗电量就达到了43.3万千瓦·时，相当于我国400多人一年的用电量。参数规模更大的ChatGPT每天则需消耗50多万千瓦·时的电力来处理2亿用户的请求，相当于美国家庭每天用电量的1.7万多倍。因此，大模型的电力消耗也是智算中心规划布局的关键考量因素。

　　再次是技术路线的挑战。随着AI大模型的指数级增长，尤其是英伟达在GPU方面的技术及市场优势，让其IB（“无限带宽”技术）成为GPU服务器的首选网络互联方案。基于单一或少数厂家的硬件、软件和服务解决方案构建的智算中心，将形成深度集成的技术体系，在后续升级、扩展、迁移时面临灵活度缺乏等问题，影响智算基础设施的可持续演进。

　　最后是行业竞争和技术“壁垒”的挑战。一是大型科技公司、电信运营商、云服务商等纷纷布局智能计算，行业竞争日趋激烈，部分企业凭借先发优势在产业链和市场上占据了极强话语权。二是我国高端智算芯片供应能力不足，即便花费大量资金也难以在短期内弥补硬件差距。

　　在资金、能耗、运维、技术、竞争等多重因素联动作用下，我国智算中心总体呈现小规模、多层次的发展态势，企业分地域、分时期、分阶段建设智算中心的现象较为普遍。为满足日益增长的智算需求，依托网络资源禀赋，将离散的智算中心资源进行整合，实现算力的高效利用和资源共享，是当前阶段突破算力供给难题的有效发力点。

　　利用网络能力提升智算基础设施效能

　　鉴于我国在短期内无法满足建设超大规模集约型智算中心的现状，可通过构建先进的网络基础设施，解决单点算力不足的问题，促进多地、多方、多时建设的智算中心间进行有效协同。

　　以机内互联提升单点算力密度

　　机内互联是通过先进的总线技术提升单算力节点内的GPU互联规模。例如英伟达NVLink5.0技术具备1.8TBit/s互联带宽，支持百块卡级别的互联规模。目前英伟达已发布的DGXGB200SuperPOD系统就在NVLink5.0基础上，支持576个芯片的互联互通。国内厂商如华为、寒武纪也纷纷推出了自研的互联总线协议，通过国产化的总线技术实现机内互联。

　　以提升网络承载效率为目标的机间互联

　　以提升DCN（数据中心网络）承载效率为目标，打造满足超大规模、超低时延、超大带宽、超高可靠性需求的网络设施。当前业界主流的两种方案是IB和RoCE（基于以太网的无损传输），两者分别代表了高性能网络的两种不同建设思路，前者虽然能提供低时延、高带宽的网络，但生态封闭且成本较高；后者基于标准以太网，具有更好的兼容性和成本优势，但在性能方面还需进一步提升。目前，国内外也出现了一些新动向，例如致力于突破传统以太网性能瓶颈的超以太网联盟UEC，从物理层、链路层到软件层改进以太网技术，以实现大规模组网效率和性能的提升。

　　以长距组网技术实现多节点互联

　　将多个独立的智算中心通过网络技术互联成一个大型集群，以实现跨数据中心的算力协同和资源共享。据报道，谷歌完成大模型GeminiUltra的训练任务就采用了该策略。然而，针对单点算力不足的问题，通过长距离组网实现无损互联的商业解决方案还处于探索阶段，尚无法规模化应用。现有的IB和RoCE在实现长距离无损互联方面存在限制，未来还需“产学研”各界合力突破距离瓶颈。

　　以任务调度实现多集群协同

　　智算业务偶发性和可调度性特征为任务调配提供了基础。偶发性表现为智算任务在较长运行周期内仅短暂占用资源，其余时间无算网资源消耗；可调度性则体现在任务的算法依赖关系较为简单，如基于相同开发框架的大模型训练任务，易于迁移至同类资源池执行，与资源归属方或运营方的绑定关系较弱。因此，可通过特定的任务调度策略为用户业务匹配不同的智算服务集群。

　　目前来看，面向智算场景的任务调度策略主要有三类。

　　一是基于控制器对接的集中管控方案。此方案将集中的控制器与各个智算资源控制器接口对接，实现对全局算力资源的统一调度与管理。

　　二是基于路由协议扩展的算力网关方案。此方案通过对传统路由协议进行扩展，使其具备感知多方算力资源信息的能力，从而实现算力调度。例如中国电信研究院研发的算力网关，通过增强路由协议识别并引导数据流至最合适的算力节点，确保任务执行的高效与流畅。

　　三是基于DNS（域名系统）解析的算力互联网方案。该方案利用DNS域名解析机制，借助DNS系统解析请求，将任务透明传输至最佳算力提供方，打破地域界限，实现智算资源的互联互通与灵活调度。

　　以上述三种任务调度方案为基础，业界已成功开发出多种智算调度升级方案，有效地应对了智算中心算力不足的问题，实现全局智算资源在更广范围的高效利用。

　　结语

　　智算基础设施建设将有效促进AI产业化和产业AI化，是支撑数字经济发展的重要“底座”。基于短期内无法解决超大规模集约型智算中心建设的难题，可依托我国网络资源禀赋，采用机内互联、机间互联、多节点互联以及多集群协同的网络手段弥补单点算力差距，充分释放每个智算单元的浮点运算能力，催生数字经济新动能。

附件下载

扫一扫在手机上查看当前页面