ChatGPT如何推动数据中心的变革
发布于2024-11-07
生成式人工智能 (gen AI) 正在重塑技术格局,并且其影响不是浮于表面,而是正在悄然推动数据中心基础设施发生根本性改变。Equinix 2023年全球技术趋势调查结果显示,有42%的IT领导怀疑他们的基础设施能否适应日益增长的生成式人工智能应用,41%的领导怀疑他们的团队是否有能力实施这项技术。[1]
本文将介绍生成式人工智能对数据中心设计和运营的影响,并探讨支持其持续发展所需的变革。
不断发展的智能:生成式人工智能如何改变数据中心
生成式人工智能相较于传统机器学习方法是一种重大进步,它带来了新的功能和挑战,并重塑了人工智能和数据中心运营的格局。
机器学习是数十年来人工智能的主要范式,它擅长根据历史数据进行模式识别和预测,在分类、回归和聚类等任务中表现非常出色。但机器学习模型通常受限于训练数据和预定义的规则,因此其创新能力有限。
生成式人工智能不仅能够识别模式,还能生成新颖、原创的内容。这种根本性的能力转变带来了几个关键的不同:
-
创意输出结果:生成式人工智能是机器学习的一个分支,专注于模仿人类创造力,生成新的文本、图像或其他内容。相比之下,传统的机器学习模型专注于预测或分类,虽然可用于类人的决策,但无法提供创意输出结果。
-
语境理解:生成式人工智能通常使用在大型数据集上训练的大模型,这使其能够细致理解语境,以及处理复杂、开放的任务。与之相比,传统的机器学习模型通常更加专注某个领域,范围有限。
-
数据要求:与传统的机器学习模型相比,生成式人工智能通常需要更大规模的数据集进行训练。这种对数据需求的增加显著影响了数据中心的存储和处理能力。
-
模型复杂度:生成式模型(如GPT-4或DALL-E中使用的模型)的复杂度通常要比传统机器学习模型高出几个量级,因此需要更高的计算能力和更复杂的硬件。
-
训练和推理过程:相比传统的机器学习模型,生成式人工智能模型的训练过程通常需要更多的资源和时间。而且,生成式人工智能的推理(即生成输出)对计算能力的要求更高,尤其是对于实时应用。
-
适应性:虽然机器学习与生成式人工智能都可以进行微调,但在适应新的任务或领域时,生成式人工智能模型通常无需大量再训练即可表现出更高的灵活性。
表1列出了机器学习与生成式人工智能之间的一些关键区别:
表1. 标准人工智能与生成式人工智能
这些差异对数据中心的设计和运营有着深远的影响。在支持生成式人工智能工作负载时,巨大的计算量、对专用硬件的需求以及海量数据的处理和存储都带来了严峻的挑战。在探索数据中心基础设施所需的转型时,我们必须牢记这些根本性的差异,并认识到针对传统机器学习优化的解决方案可能无法满足生成式人工智能的需求。
为什么当前的数据中心无法支持生成式人工智能?
生成式人工智能对资源的需求大大超过了传统人工智能,因此需要对数据中心的多个运营领域进行变革,包括提高计算能力、采用专用架构以及新的电源和网络优化方法。根据预测,到2028年,生成式人工智能服务器基础设施和运营成本将超过760亿美元,这个数字反映了面临的挑战规模。[2]
而且,生成式人工智能在数据管理方面也面临着独特的挑战。许多流行的模型都是使用网络抓取的数据进行训练,这引发了人们对隐私和版权的担忧。[3] 此外,使用敏感或专有信息作为训练数据也存在风险,可能会引发法律和监管问题。
重新设计硬件架构
生成式人工智能的需求与传统工作负载有着本质区别,因此需要彻底重新设计数据处理硬件架构。计算的规模、运营的复杂性以及所涉及的海量数据将当前的数据中心设计推向了极限,甚至超越极限。这不是简单地扩大现有解决方案的问题,而是需要创新的方法来应对关于数据中心应该如何构建和运营的长期假设。
为了满足生成式人工智能的需求,数据中心必须在多个关键领域有所突破。
HPC和GPU
高性能计算 (HPC) 对于运行生成式人工智能应用至关重要。HPC架构利用多个计算节点,支持并行处理复杂操作。图形处理单元 (GPU) 自带并行处理能力,因此非常适合HPC系统,能满足生成式人工智能的计算需求。[4]
GPT-3是ChatGPT所采用的大语言模型 (LLM) 的前身,它拥有1750亿个参数,需要至少具有2048个GPU的分布式并行计算系统才能以最低延迟运行。[5] 业界猜测,GPT-3的后续版本GPT-4将包含约1.8万亿个参数,这进一步说明了高级生成式人工智能模型对计算的巨大需求。[6]
值得注意的是,计算速度与计算容量同样重要。以虚拟现实场景中生成视觉内容为例,为了减少用户眩晕感,帧率需要达到90fps。因此,计算资源必须足够强大,才能在0.1秒内生成内容。[7]
然而,包括加密货币挖矿在内的各个领域对GPU的需求日益增长,可能会导致供应紧张。数据中心设计人员可能难以获得足够的GPU来满足需求。
摒弃过时的架构
生成式人工智能的兴起正在将传统数据中心架构推向极限。服务器农场中以CPU为中心的技术已经达到了回报递减的临界点,因此需要转向异构架构,实现计算、内存和存储资源的分离。[8]
现场可编程门阵列 (FPGA) 为固定硬件结构提供了另一种选择。FPGA不受总线宽度限制,具有更低的延迟和硬件级并行性,在模糊搜索之类的特定数据中心分析应用中,其速度可达传统硬件的100倍。[9]
数据处理单元 (DPU) 在异构架构中发挥着至关重要的作用。凭借其专用的低功耗内核、协处理器和高速接口,DPU可以处理加密、数据压缩和服务质量 (QoS) 管理任务。这可以释放CPU和GPU,使其专注于带宽密集型和计费型工作负载,从而通过降低功耗来降低数据中心的总体拥有成本。[10]
神经处理单元 (NPU) 是专门用于加速人工智能和机器学习任务的处理器。它们擅长图像识别和自然语言处理等任务,可进一步提高生成式人工智能的工作效率。[11]
减少能源消耗
生成式人工智能的计算需求将转化为巨大的能源需求。平均而言,一次ChatGPT查询所消耗的能量是一次标准谷歌搜索的十倍。因此,预计到2030年,数据中心对能源的需求将因生成式人工智能而增长160%。[12]
为了应对这一挑战,数据中心可以采取以下几种策略:
-
利用专门的芯片到芯片通信协议优化集成电路之间的数据传输。[13] 例如,NVIDIA的直接芯片到芯片协议可实现高速互连,优化集成电路之间的数据传输。[14]
-
用更节能的固态硬盘 (SSD) 取代传统的硬盘 (HDD)。例如,三星的企业级SSD在工作模式下的功耗仅1.25W,而15,000rpm SAS HDD的功耗为6W。[15]
-
采用先进的冷却技术,例如直达芯片液冷和浸没式液冷。直达芯片液冷是通过直接接触热源的冷板来循环冷却剂。而浸没式液冷则是将IT硬件浸没在具有高热导率的绝缘液体中,以实现更高效的散热。
-
利用AI本身来优化能源利用,特别是在冷却系统中。例如,谷歌的DeepMind AI将冷却成本降低了40%。[16]
实现更好的网络优化
要支持生成式人工智能,网络基础设施必须与计算资源同步发展。数据中心必须实施高容量网络解决方案,以支持更高的数据传输速率和更复杂的网络,同时控制成本。[17]
可能的解决方案包括:
-
采用光学连接,以实现更高的带宽和更出色的功效。[18]
-
部署具有优化连接的大型GPU集群,例如Amazon Web Services提供的弹性结构适配器 (Elastic Fabric Adapter)。[19]
网络技术的这些进步对于满足生成式人工智能系统的大规模数据传输需求至关重要,能够加快训练和推理过程。
提升数据隐私保护
对于生成式人工智能工作负载,数据脱敏、聚合和假名化等传统数据匿名化方法是不够的,因为它们往往会降低数据的可用性。为了在不泄露敏感信息的前提下保持数据的可用性,数据中心需要探索AI驱动的匿名化技术,例如差分隐私与合成数据生成。
新的训练方法也在不断涌现,以解决隐私问题:
-
联邦学习在客户端之间共享模型参数而非数据,从而无需数据传输即可在多个设备或服务器上训练算法。这种方法可确保数据隐私,并实现民主学习框架,非常适合在智能手机、物联网和边缘设备上部署。[20]
-
分割学习让每个客户端在将更新传送到中央服务器之前对模型进行部分训练,然后将这些更新整合到最终输出中。这种方法在数据隐私和模型性能之间取得了平衡。[21]
这些方法解决了隐私问题,并为减少数据消耗和实现更分散的AI训练方案提供了潜在的解决方案。
生成式人工智能的未来在于边缘计算
虽然重新设计数据中心对于支持生成式人工智能很重要,但边缘计算才是下一个前沿领域。通过在数据源上处理数据,边缘计算解决了带宽和隐私问题,同时减轻了数据中心的工作负担。这在医疗保健和零售等行业尤为重要,因为这些行业的大量数据已经在边缘生成。[22]
边缘计算可以使数据中心基础设施变得更加灵活和模块化。通过在更靠近数据源的地方处理数据,边缘计算可以减少延迟并提高实时处理能力,这对于许多生成式人工智能应用至关重要。[23]
但这种转变要求数据中心首先采用支持生成式人工智能工作负载所需的硬件、架构和基础设施。这包括前面讨论过的计算资源以及能够支持边缘计算分布式特性的网络和存储解决方案。
随着生成式人工智能的不断发展,我们的数据中心也必须与时俱进。这一转变将涉及技术升级以及数据管理、隐私和分布式计算新方法。通过满足这些新的需求,数据中心将帮助发挥生成式人工智能技术的全部潜能,为我们只能开始想象的创新铺平道路。
参考资料
[1] https://blog.equinix.com/blog/2023/06/14/accelerating-ai-innovation-requires-ecosystems-and-infrastructure/
[2] https://www.forbes.com/sites/tiriasresearch/2023/05/12/generative-ai-breaks-the-data-center-data-center-infrastructure-and-operating-costs-projected-to-increase-to-over-76-billion-by-2028/
[3] https://www.wired.com/story/how-to-stop-your-data-from-being-used-to-train-ai/
[4] https://www.nvidia.com/en-us/glossary/high-performance-computing/
[5] https://ieeexplore.ieee.org/document/10268594
[6] https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[7] https://ieeexplore.ieee.org/document/10268594
[8] https://www.edgecortix.com/en/blog/ai-drives-the-software-defined-heterogeneous-computing-era
[9] https://www.dataversity.net/future-data-center-heterogeneous-computing/
[10] https://www.kalrayinc.com/blog/dpus-gpus-and-cpus-in-the-data-center/
[11] https://www.purestorage.com/knowledge/what-is-neural-processing-unit.html
[12] https://www.goldmansachs.com/insights/articles/AI-poised-to-drive-160-increase-in-power-demand
[13] https://research.manchester.ac.uk/en/studentTheses/energy-efficient-encoding-methods-for-chip-to-chip-communication
[14] https://developer.nvidia.com/blog/strategies-for-maximizing-data-center-energy-efficiency
[15] https://www.techtarget.com/searchdatacenter/tip/Four-ways-to-reduce-data-center-power-consumption
[16] https://www.digitalrealty.co.uk/resources/articles/green-data-centre-ai
[17] https://www.laserfocusworld.com/optics/article/14300952/unleashing-ai-data-center-growth-through-optics
[18] https://semiengineering.com/ai-drives-need-for-optical-interconnects-in-data-centers/
[19] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html
[20] https://medium.com/@cloudhacks_/federated-learning-a-paradigm-shift-in-data-privacy-and-model-training-a41519c5fd7e
[21] https://medium.com/@minhanh.dongnguyen/a-gentle-introduction-on-split-learning-959cfe513903
[22] https://www.forbes.com/sites/forbestechcouncil/2023/12/11/why-generative-ai-makes-sense-for-edge-computing/
[23] https://www.datacenterdynamics.com/en/opinions/are-data-centers-obsolete-in-the-age-of-ai/