技术博客 > 正文

大模型时代算力基础设施如何构建?

2024-12-06

一、大模型时代算力基础设施的重要性
(一)大模型发展现状
当前以大模型为代表的人工智能快速发展,2024 年政府工作报告提出深化相关研发应用,国务院国资委也强调发展人工智能产业。这表明大模型技术正迅速成为推动企业创新与发展的重要引擎。例如,国务院国资委召开“AI 赋能 产业焕新”中央企业人工智能专题推进会,强调深入推进产业焕新,加快布局和发展人工智能产业。
(二)算力需求增长趋势
随着大模型的发展,算法模型和数据的压力逐步降低,算力不足成了最大问题。据 IDC 发布的《2022 - 2023 中国人工智能计算力发展评估报告》,2022 年中国智能算力规模将达到 268.0EFLOPS,预计到 2026 年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,2021 - 2025 年人工智能算力复合增长率将达 52.3%。同时,英伟达测算未来十年算力每年将增长 4 倍,十年以后累计增长 100 万倍。例如,2022 年中国智能算力规模为 259.9EFLOPS,2023 年将达到 414.1EFLOPS,同比增长约 59.3%,预计到 2027 年,中国智能算力规模将达 1117.4EFLOPS,2022 - 2027 年期间的年复合增长率为 33.9%。智能算力需求的激增,也带动算力上下游市场实现快速增长。在芯片方面,IDC 预计,2023 年中国人工智能芯片出货量将达到 133.5 万片,同比增长 22.5%。大模型的发展提升了智能算力的需求,中国的人工智能算力平台将呈现多元化发展趋势,整体市场也将充满机遇。

二、大模型时代算力基础设施面临的挑战
(一)算力层挑战
在大模型时代,算力基础设施在算力层面临着诸多严峻挑战。
首先,算力发展应用存在多元化、供需不平衡、分配不平衡、效能比不平衡等问题。从全球范围来看,预计到 2030 年全球智能算力将达到 105Z Flops,是现在的 500 倍,其增长速度远超通用算力的 10 倍。然而,国外目前尖端的 A100、H100 GPU 处理模块不对我国市场开放,而专门针对中国市场推出的 A800 和 H800 又一卡难求,交期漫长。这使得国内大模型训练在算力获取上受到极大限制。
其次,目前国内大模型的训练算力供给集中,主要向几个大厂配给,企业用户想要获得算力资源比较困难,算力分配不均衡。建立一个智算中心成本通常以亿为单位,数据模型训练成本也在千万级徘徊居高不下,大量的场景需求和大型 AI 算力中心建设的高准入门槛相互对立,进一步加剧了供需矛盾。
(二)基础网络层挑战
大模型参数规模增长迅速,对运力提出了严峻挑战。从 2017 年到 2023 年,不到 10 年的时间里,大模型参数从千万级规模增长到 5000 亿级,暴增了 5 万倍。由于参数量巨大,单个 GPU 卡早已不堪重负,多卡互联形成智算算力集群成为目前的主流解决方案。但国内传统使用的无链接网络技术和向上收敛的网络架构,在通信连接、算力调度、稳定性等方面仍存在诸多问题,丢包、重传等频繁出现对智算中心模型训练将会带来致命问题。
同时,大模型时代,数据安全面临更多挑战。企业使用大模型 + AI 算力中心赋能数字化转型,往往需要经过预训练、精调、推理等三个环节。但无论是客户使用 AI 算力资源,上传数据到厂商环境训练,还是模型落地企业客户本地化私有部署环境,或者精调、训练等环节都不免会涉及数据和模型泄露的风险。

三、大模型时代算力基础设施构建策略
(一)技术层面
在大模型时代,算力基础设施的构建在技术层面需要多方面的努力。
构建智算集群:大模型的特点是模型规模大,过去几年参数量以每年10倍的速度增长,在这样的算力要求下,需要构建智算集群,能够支持万卡级别的高速互联,并且支持各种异构算力,包括CPU、GPU等算力的高速互联。例如百度杰出系统架构师王雁鹏在文心大模型技术交流会上提到,构建这样的智算集群是构建万卡规模大模型基础设施的核心关注点之一。
优化软件栈:光有硬件能力很难发挥出好的效果,要把软件栈优化好,这最终会体现在训练和推理的性能加速优化上。比如通过对软件栈的优化,百度智能云副总裁朱勇透露,自“文心一言”内测以来,在企业服务中,其在高频场景下的推理性能已大幅提升50倍。
进行存储分层和计算分层:构建这样一个系统需要有更合理的技术选择,做存储分层、计算分层,主要是要达到更高性价比。在大模型的通信特点下,有很多集合通信的操作,数据量以指数级提升,对存储和计算都提出了更高的要求。因此,设计多级存储系统,对于大量数据存在对象存储系统里,可以支持非常大规模的容量。
优化网络架构:在这么大规模下,要保证网络的扩展性,以及没有拥塞,是非常困难的事。大模型的通信特点是有很多集合通信的操作,集合通信可以分解成在同号卡之间的集合通信。在此基础上,优化网络架构,在同号卡之间构建高速的通信通道,这样可以保证任何通信都能解决,大幅提升整体网络的吞吐,以及消除各种网络拥塞和冲突的可能性。例如几十亿参数规模的大模型网络架构优化中,提出了一种新的网络架构,将集群划分为非阻塞任意高带宽互连的GPU组,称为HB域的互连,在HB域中,网络仅连接具有通信需求的GPU,降低了网络成本且不影响LLM训练性能。
(二)管理层面
大模型分布式训练对计算、网络和存储的需求巨大,需要进行系统性软硬一体协同优化,提高基础设施构建和全栈管理能力。
首先,要统筹考虑大模型分布式训练的需求,从计算规模、通信能力、存储容量等方面进行全面规划。在计算方面,追求近似线性的超大规模集群扩展能力,通过多种方式抑制节点协同损耗,不断提升集群使用效率。在通信方面,提升节点内外互联通信速率,采用高性能无阻塞的网络连接以及更高并行度的训练策略和通信范式。在存储方面,强调对算力资源的充分挖掘利用,通过精细化缓存、查询请求消重等降低存储读写压力。
其次,加强资源管理和监控功能,确保算力资源的合理分配和高效利用。例如联想万全异构智算平台具有强大的资源管理和监控功能,GPU内核虚拟化技术及差异化服务等优势,三种交付方式应对混合计算需求爆发,为企业大模型落地应用奠定坚实保障。
最后,提高基础设施构建和全栈管理能力,需要依托先进的技术框架和全程的陪伴服务。例如中国电信积极探索“云、网、智”的融合技术,打造弹性超宽、高速无损、“云、边、端”全域调度的智能算力网络,满足不同企业、不同行业对大模型训练和推理的差异化需求。
(三)安全层面
在大模型时代,加强算力基础设施的安全管理至关重要。
加强数据安全管理:在预训练、精调、推理等环节防止数据和模型泄露。大模型构建过程一般被划分为三个关键阶段,即训练阶段、部署阶段以及业务运营阶段,在各业务阶段都面临安全风险,且挑战不同。在大模型训练阶段,数据清洗尤为关键,通过数据清洗与安全对齐,实现模型内生安全。例如百度安全副总经理冯景辉介绍说,在文心大模型训练过程中,百度花费了大量的人力、物力和财力来清洗数据,来确保最后生成的内容质量。
应对运力挑战:提升训练效率,努力实现“零差错、零丢包”。大模型参数规模增长迅速,对运力提出了严峻挑战。通过独有的云管理平台,以及AI服务器和网络的深度融合,自动实现网络节点快速配置和调优、验证,以及智算算力中心全局端到端流量负载分担,保证算力数据高效转发。例如神州鲲泰通过独有的云管理平台,以及AI服务器和网络的深度融合,努力实现“零差错、零丢包”,训练效率相较同类型产品提升20%。

综上所述,在大模型时代,数据中心可以通过优化硬件设备、软件架构、能源管理、数据管理以及应用人工智能技术等多种策略来提升通用算力和人工智能算力。这些策略的综合应用可以帮助数据中心更好地应对大模型带来的挑战,为人工智能的发展提供强大的算力支持。

联系我们

联系我们

  • 售前: 400-010-0617
  • 售后: 400-696-3666
线上咨询
合作申请
微信
官方微信