Skip to main content

告别服务器集群:生成式AI与数据中心

发布于2024-11-07

庞大的服务器集群曾经主导着传统的数据中心;然而,在不断增长的生成式人工智能(gen AI)推动下,这些数据中心正经历着一场巨大的变革。随着AI需求持续演变,以服务器为中心的传统模式正在迅速过时。这种转变不仅涉及硬件的升级,更是重新定义了数据中心的构建和工作方式。本文将介绍在这一转变过程中所采用的一些技术。

超越传统硬件

复杂的AI模型正不断突破自然语言处理(NLP)和图像生成等领域的极限;同时,它们也将数据中心推向了极限。

ChatGPT的前身GPT-3为例。它的参数量达到了惊人的1750亿,需要至少2048GPU组成的分布式系统才能高效运行[1]。虽然OpenAI尚未公开披露GPT-4的确切参数量,但根据多个可靠消息来源和专家推测,该模型的参数量约为1.71.8万亿[2]。指数级增长的复杂性,绝不是数字游戏那么简单——它预示着我们亟需彻底重新思考数据中心架构。

需要注意的是,计算速度是与计算能力同样重要的问题。例如,应用程序要在虚拟现实环境中生成视觉内容,就必须要达到90fps的帧速率才能减轻眩晕感,而计算资源必须足够强大,才能在90分之1秒内生成内容[3]。这样的要求凸显了低延迟、高吞吐量系统对于现代数据中心的重要性,特别是对于依赖实时处理的应用程序而言。

面对各种各样的新需求,以CPU为中心的服务器集群显然已经时日无多。这些传统设施产生的收益越来越低,促使业界转向异构架构,将计算、内存和存储资源分离开来。这种转变可以根据AI工作负载的特定需求,更加细致、高效地分配资源。

GPU“淘金热”与其他方案

高性能计算(HPC)对于运行生成式AI应用程序至关重要。HPC架构可以利用多个计算节点,并行处理复杂的操作[4]

图形处理器(GPU)天生就非常适合这种方法。它们包含数百到数千个并行运行的执行单元,能够从容地处理AI工作负载[5]。然而,诸如加密货币挖矿等多个行业同样对GPU有着激增的需求,这就给数据中心设计人员带来了巨大的挑战[6],包括成本增加和组件供应问题。

目前,GPU之外的一些专用方案正得到越来越多的关注,其中一部分原因正是GPU短缺。这些方案包括:

  • 现场可编程门阵列(FPGA具有低延迟和硬件级并行能力,可以让以数据为中心的特定分析任务提速达100[7]。越来越多样化的AI工作负载需要处理器具备传统CPU无法高效处理的更专业的处理能力。面对这样的需求,FPGA正变得越来越重要。

  • 数据处理器(DPU通过卸载加密和数据压缩等任务,将CPUGPU的处理能力释放出来,用于更密集的工作负载,从而降低总体功耗[8]。凭借专用的低功耗内核、协处理器和高速接口,DPU可以处理加密、数据压缩和服务质量(QoS)管理任务。这样的卸载操作可以优化性能,并通过降低功耗来降低数据中心的总拥有成本。

  • 神经处理器(NPU的设计灵感源自神经网络的结构和功能,专用于加速和优化AI与机器学习算法。它们在图像识别和自然语言处理等任务中表现出色,已成为生成式AI应用中的重要资产[9]

能源需求

生成式AI的计算需求也会导致能源消耗增加。一个事实是:ChatGPT查询的平均能耗是常规谷歌搜索的十倍,这样一来就不难理解为什么到2030年,数据中心的电力需求预计将因为生成式AI而激增160%[10]。对于努力在性能与可持续性之间取得平衡的数据中心运营商而言,这样的急剧增长本身已经是巨大的挑战,更不用说运营成本了。

缓解这种能源饥渴的方法之一,就是开发专用的芯片到芯片通信协议。这些协议(如NVIDIA的直接芯片间互连)可优化集成电路之间的数据传输,从而降低能耗[11]

未来展望

生成式AI所带来的变革,不仅重塑了算法,还从根本上改变了为数字世界提供支持的物理基础设施。随着我们向前迈进,数据中心必须不断发展,以满足这些AI模型前所未有的需求,同时还要解决迫切的能效和可持续性问题。

未来的数据中心很可能会是异构架构缔造的奇迹,各种专用处理器和创新的通信协议都将在其中大放异彩。成功完成这一转型的企业将保持竞争力,并为下一代数字基础设施制定标准。

当我们站在这一转型的边缘时,有一点是显而易见的:未来的数据中心将具备与它们所承载的AI模型一样强大的智能和适应性,从而开创算力和效率的新时代。

参考资料

[1] https://ieeexplore.ieee.org/document/10268594

[2] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

[3] https://ieeexplore.ieee.org/document/10268594

[4] https://www.netapp.com/data-storage/high-performance-computing/what-is-hpc/

[5] https://www.nvidia.com/en-us/glossary/high-performance-computing/

[6] https://www.ciodive.com/news/nvidia-gpu-data-center-revolution-jensen-huang/708273/

[7] https://www.dataversity.net/future-data-center-heterogeneous-computing/

[8] https://www.kalrayinc.com/blog/dpus-gpus-and-cpus-in-the-data-center/

[9] https://www.purestorage.com/knowledge/what-is-neural-processing-unit.html

[10] https://www.goldmansachs.com/insights/articles/AI-poised-to-drive-160-increase-in-power-demand

[11] https://developer.nvidia.com/blog/strategies-for-maximizing-data-center-energy-efficiency/

作者简介

Brandon Lewis是一位拥有超过十年经验的深度科技记者、讲述者和技术作家,从软件初创公司到半导体巨头都曾是他报道过的对象。他关注的领域包括嵌入式处理器、硬件、软件和工具,因为它们都与电子系统集成、物联网/工业4.0部署,以及边缘人工智能等应用有关。他还是一名出色的播客、视频博主、活动主持人和会议发言人,并曾在多家电子工程贸易出版物中担任主编和技术编辑。

Brandon在不出席面向B2B技术受众的大型活动时,会通过电视指导菲尼克斯地区的体育特许经营公司。