AI服务器:智慧演进背后的引擎
发布于2024-05-28
当今的在风起云涌的数字世界中,数据中心承载着个人、企业和机构的信息和计算需求。随着人工智能时代的到来,数据中心和服务器不再是简单的信息存储和计算工具,而是变得更加复杂、庞大,甚至有了“智慧”。从数据安全和智能管理到量子计算、机器人等前沿技术的应用,数据中心已经成为了人类迈向AI时代最重要的基底。
但同时,数据中心的能源消耗问题也成为了全球性的关注焦点,每一次的计算都需要消耗大量的电力。面对这一挑战,人们开始思考如何通过创新技术来解决能源消耗问题,从而实现数据中心的智能化、自动化和绿色化。
关于AI时代的数据中心的运行,此次我们采访了资深大数据和AI工程师Alex Lin,他结合自己在硅谷科技公司的实际工作经历,为我们揭开数据中心和AI服务器的神秘面纱。
从“服务器农场”到AI数据中心
对于大众来说,数据中心早已不是一个陌生的概念。在采访中Alex Lin表示,从上个世纪60年代至今,数据中心的发展可以主要分为早期、互联网、云计算和人工智能几个重要阶段。
服务器农场阶段:在计算机技术起步时期,数据中心主要是大型主机和服务器的集合,这些超大号的机房被称为“服务器农场”,用于处理和存储基本的计算任务和数据。它们通常由大型企业或政府机构建立和运营,规模相对较小、功能单一,主要支持内部业务运作。
互联网时代:随着上世纪90年代开始互联网的普及和信息技术的迅速发展,数据中心的规模和复杂性逐渐增加,开始扮演连接全球网络的枢纽角色,涵盖如网站托管、电子邮件服务、电子商务等更多应用服务。这一阶段虚拟化技术开始被引入,使得数据中心的资源利用率大幅提高,成本也得到更有效的控制。
云计算时代:进入21世纪,亚马逊、谷歌等科技公司提出云计算概念,计算、存储等资源开始由虚拟化软件管理再分配给用户使用,数据中心逐渐发展成为云服务提供商的核心基础设施。这一阶段,数据中心规模进一步扩大,采用了更多的自动化和标准化技术以满足大规模、弹性和按需的服务需求。服务方式也从单纯的物理硬件出租,进化为虚拟硬件、软件平台和服务的出租,并衍生出IaaS、PaaS、SaaS等概念。
AI时代:随着人工智能技术的快速发展和广泛应用,特别是近几年来生成式AI的突破性发展,数据中心迎来了新的挑战和机遇。AI算法和大模型需要大量的数据储存和计算能力,数据中心依靠高性能的硬件和全新软件系统,为AI发展提供大规模计算资源以及可靠的存储方案。此外,数据中心通过水平和垂直扩展,使AI应用具有极强的可拓展性,能在各种不同的生产环境中进行部署和应用。
数据中心的AI服务器
随着AI技术的快速发展,AI服务器在数据中心中扮演着愈发重要的角色。据悉,AI的发展离不开数据、算法和计算力三大要素。其中,数据是构建深度学习模型的基础,算法是处理数据的工具,计算力则是最为强力的引擎。
Alex表示,随着近年来终端、用户以及数据量的爆发性增长,传统硬件架构的计算能力已经无法满足计算需求。为此,针对AI应用的专用AI服务器应运而生。
相较于普通服务器,AI服务器往往采用CPU+GPU、CPU+TPU等异构架构。GPU(Graphics Processing Unit)具备强大的并行计算能力,适用于密集型通用计算任务。TPU(Tensor Processing Unit)则是由谷歌定制开发的专用集成电路(ASIC),专为加速深层神经网络运算而研发。业内人士指出,目前AI服务器一般至少配置4块GPU,并搭建服务器集群以提高处理速度,并需要配备大容量内存和高速存储设备以支持快速数据读写和模型加载。
此外,AI服务器通常预装针对AI应用优化的软件工具,如深度学习框架TensorFlow和PyTorch,以及英伟达提供的CUDA库和一系列优化的驱动程序及运行环境。
AI加速卡GB200,图源:英伟达
AI时代的数据中心的运行和管理
在AI时代,数据中心面临着处理海量数据和复杂计算任务的挑战。同时,新兴技术和应用也给数据中心的运行与管理带来新的要求。因此,数据中心需要加强数据安全、智能监控和动态故障分析等方面的能力,以确保能够高效、安全地处理大规模数据,并应对不断变化的技术发展。
AI时代的数据特点和安全
近年来,AI时代的数据具有独特的特点:
-
数据规模巨大且结构复杂:AI应用需要大量图像、文本、音频等数据进行训练和学习,这些数据形式多样,需要大量存储和处理能力。
-
数据实时性要求高:智能交通、智能医疗系统等AI应用需要即时收集、处理和分析数据,作出实时决策和响应。
针对AI数据的上述特点,数据隐私安全和防止数据泄露滥用成为了关键。可从技术和流程两方面采取措施:
-
技术方面,实施严格的访问控制和身份验证,对敏感数据进行脱敏和匿名化。
-
流程方面,部署安全审计和监控系统,加密和备份数据,建立完善的灾备计划,持续更新服务器。
通过以上措施,可以有效增强AI数据的安全性。
智能监控系统
智能监控系统在数据中心发挥重要作用:
-
实时监测硬件运行状态:如服务器、网络设备、存储设备的温度、电压、风扇转速等,及时发现故障。
-
优化能源利用率:分析电力、冷却水等能耗趋势,帮助优化数据中心的能源利用。
-
监测网络性能:跟踪流量、带宽利用率、延迟等网络指标,优化网络性能。
-
监测应用性能:跟踪响应时间、吞吐量、错误率等应用指标,进行性能优化。
-
监测安全事件:检测入侵、恶意软件、数据泄露等并及时应对。
总之,智能监控系统可以全面监测数据中心运行,提高其稳定性、性能和能效,是数据中心管理的重要工具。
动态故障分析
数据中心运行中可能发生各种故障,需要动态分析并及时解决:
-
硬件故障:服务器、网络设备、存储设备故障可能导致服务中断或性能下降,需重点关注。
-
软件故障:操作系统、应用程序、数据库等软件故障可能导致应用崩溃或数据丢失,影响安全运行。
-
网络故障:网络连接中断、网络拥塞、路由故障等可能导致服务不可访问或通信延迟增加。
-
能源故障:电力故障、冷却系统故障可导致设备过热或停机。
针对这些故障,可采用机器学习和数据挖掘技术,实现数据中心的自动化诊断和预测性维护。及时发现和解决这些故障有助于确保数据中心的稳定可靠运行。
前沿技术应用
前沿技术在数据中心的应用受到关注,其中量子计算和机器人是两个备受瞩目的方向,帮助数据中心应对日益增长的数据处理需求和运维管理挑战。
量子计算
Alex表示,要了解量子计算在数据中心的作用,首先要理解什么是量子计算及它的特性。量子计算以比特作为计算的基本信息处理单元,具有量子态的叠加性和纠缠性。与经典计算模式只有0或1两种状态不同,量子比特能够处于0和1的叠加态,同时存储0和1。这意味着量子计算能够实现指数级的计算速度,以比超级计算机小得多的空间解决复杂的问题。
近年来,量子计算进入了快速发展期。2019年谷歌的量子计算机首次实现了“量子霸权”,在200秒内完成了传统超级计算机需要1万年才能完成的计算。去年7月,其量子比特数量从53个增加到了70个,性能再次成倍提高。中国则在2020年12月成功构建了量子计算原型机“九章”,成为了全球第二个实现量子优越性的国家。这几年“九章”不断进化,去年10月,255个光子的“九章三号”问世,其求解高斯玻色取样数学问题比全球最快的超级计算机快一亿亿倍。
对于数据中心来说,量子计算主要应用于大规模加速数据处理,包括优化算法、模拟复杂系统、分析大规模数据集等,用以加速机器学习算法的训练和推理过程。量子计算也可以用于优化算法和模型,例如线性规划、组合优化等。
谷歌量子计算机系统,图源:谷歌
机器人技术
机器人技术在数据中心中的应用主要集中在设备维护和保养、物品搬运和配送、环境监测和调节、安全巡逻和监控等方面。例如,机器人可以24小时不间断工作,巡检服务器、网络设备和其他硬件设备,检查它们的运行状态、温度、电压等参数,及时发现并报告潜在故障或问题。这些机器人还可以自动收集设备运行数据,并结合AI算法进行故障预测,更全面和提前地发现隐患从而实施预防性维护,这将大幅降低设备故障率和停机时间,提高数据中心的可靠性。此外,机器人还可用于搬运服务器、存储设备和其他硬件设备等,减少人工操作,从而提高数据中心的自动化程度和操作效率。
能耗挑战
当谈及目前AI数据中心面临的最大挑战时,Alex表示能源消耗问题首当其冲。随着计算量的增大尤其是大模型的快速发展,数据中心能耗正大幅增加。以ChatGPT为例,一次训练就要消耗近90多万度电,相当于1200个中国人一年的生活用电。但很多人并不知道,这些能源消耗并不都用于计算,而是大部分用于在散热、冷却等非计算任务上,因此优化成本和提高利用效率成为了重要任务。
目前,PUE(Power Usage Effectiveness)是评价数据中心能源效率的重要指标。PUE显示了数据中心总能耗/IT设备能耗,该值越接近1就表明数据中心的能效水平越高。近年来,大型科技企业数据中心的PUE值不断降低。比如,华为在贵安的数据中心2022年时PUE值降至1.12,2023年阿里巴巴的自研数据中心平均PUE为1.215,谷歌2023年的数据中心平均PUE则能够低至1.10。这些企业采取的主要措施包括引入云计算技术、模块化设计与建造、利用风电太阳能等清洁能源以及使用液冷服务器等。其中,液冷技术目前被数据中心广泛采纳。
传统风冷和液冷技术的区别,图源:山东科普
液冷式降温是一种利用液体冷却系统来降低数据中心内部温度的技术。它通过将水或特殊的冷却液引入数据中心设备的冷却部件中,与ICT设备进行热交换并通过外部冷却设施排出实现降温,具有高效降温、节能环保等特点。但与此同时,液冷式降温也面临着设备成本较高、安装维护复杂以及潜在的漏液腐蚀风险等挑战,需要根据具体场景进行应用考量。
参考文章
- https://www.ctyun.cn/zxzs/p-151722
- https://www.51cto.com/article/629091.html
- https://finance.sina.cn/2022-03-03/detail-imcwipih6364073.d.html
- http://www.news.cn/tech/2023-10/11/c_1129910485.htm
- http://www.keputech.com/mobile.php/news/view/id/543.html
关于作者
Daisy Zhang 是一名资深科技记者和编辑。曾在硅谷多家媒体但任科技记者职务,长期追踪中国以及北美地区的科技动态,曾独立采访大量斯坦福大学、伯克利大学教授,创业公司CEO、风险投资人等,撰写多篇影响力超过百万级别的科技类文章。同时创立华谷君一管理咨询公司,持续为包括成都、北京等地的中国地方政府提供产业研究咨询服务。