AI数据中心难题待解,是德科技藏着什么“秘密武器”?
为帮助客户通过仿真真实世界的AI工作负载来验证AI集群组件,从而扩展数据中心的AI处理能力,是德科技日前发布了一系列端到端解决方案Keysight AI(KAI),以及三款新产品:AI数据中心构建器、互连与网络性能测试仪、DCA-M采样示波器。希望借此显著加快AI网络设计和部署的步伐,并且能够对1.6T组件进行表征和测试,从而确保AI数据中心网络的可靠、出色运行。
是德科技人工智能(KAI)系列解决方案
AI数据中心遭遇挑战
人工智能(AI)并非新鲜事物,基本的理论框架可追溯至上世纪六七十年代。早期阶段,AI经历了“小模型、小算力、小数据”的探索阶段,早期的笔迹鉴定项目就是AI的初步尝试。随着时间的推移,技术的进步带来了算力的显著提升和数据量的爆发式增长,AI应用也逐渐从静态图片识别向动态图识别拓展。
到了2022年底和2023年春天,ChatGPT 3.5/ ChatGPT 4.0的陆续发布,让AI的准确性、易用性和实用性大幅提升。与此同时,国内也掀起了激烈的“百模大战”,加之今年年初DeepSeek的发布,更是让人们看到了AI在提升工作效率、优化服务质量等方面的巨大潜力。
是德科技大中华区市场总经理郑纪峰表示,AI具有巨大的发展前景,随着技术的持续演进、应用场景的不断拓展以及产业生态的日益完善,AI和许多现有事物的边界将变得模糊,例如AI PC、AI手机等等,未来AI概念的范围将大幅扩张,万物AI的未来或将到来。
是德科技大中华区市场总经理郑纪峰
是德科技大中华区高速数字市场部经理李坚援引相关机构的数据指出,2022年全球AI市场规模约为869亿美元,而到2030年,这一数字将有望达到1.3万亿美元,2024-2030年间的年增长率超过30%。这种增长机会不仅仅来自于算力基础设施,未来可能更多来自于应用和服务——到2030年,AI市场的增长将为美国GDP贡献21%的净增长。
然而,AI的快速发展也带来了诸多技术领域的挑战。特别是随着大模型、大算力的发展,行业对大带宽的需求急剧增加,以太网、存储、PCIe等带宽标准预计在未来3-5年将大幅提升。以以太网标准为例,未来3-5年或者2030年以前,以太网带宽将会从当前的400/800G上升到1.6/3.2T,实现4-8倍的增长。
这直接导致器件在接近物理极限性能下运行时,更容易出现稳定性、功耗、温度敏感,以及信号传输损耗/干扰等问题。同时,AI网络规模庞大且结构复杂,与传统数据中心以客户端和服务器端请求和响应的方式不同,在以万卡集群为单位的大模型计算时,网络节点故障增多、GPU使用效率低下等现象屡见不鲜。
例如,目前,搭建一个“万卡集群”规模的数据中心,投资额从数十亿到数百亿。如下图左侧所示,数据显示,数据中心中GPU真正用于计算的时间大约只有20%,62%的时间用于传输通信。如果没有出色的网络规划和模型参数设置,GPU利用效率就会大幅度降低,直接导致资产利用率低下。
图中右侧展示的是大模型训练过程中数据中心发生故障的概率。可以直观地看到,能够在特定时间之内成功完成训练任务的比例约为57%,任务失败的比例约为43%,存储、计算、互联等许多部分都有可能成为故障原因。这也表明,AI数据中心离我们所期待的真正可靠、高效的工作要求,还有不小的距离。
全生命周期方案护航AI数据中心
“KAI包含计算、互连、网络、能效四个板块,覆盖数据中心主要应用场景,希望提供从层1到层7的全栈方案,和从预研、仿真、设计,到样品测试、生产制造、维护的全生命周期方案。”李坚介绍说,之所以要推出KAI方案,是考虑到当前大规模AI数据中心需要在设计和构建过程中进行全面测试——每个芯片、电缆、互连、交换机、服务器和图形处理单元(GPU)都需要在组件级和系统级分别进行验证。
而通过使用全栈工作负载仿真补充物理层测试,识别单独测试组件时未发现的漏洞,客户可以更快地提取峰值AI性能,更快地增加容量,最大化在AI集群上的投资回报。

- KAI数据中心构建器(Data Center Builder, DCB)
KAI数据中心构建器是一款主要运行在AresONE平台上的软件,采用模块化架构,端口可级联。它主要针对交换机厂商、云服务商等客户,通过仿真AI网络的集合通讯和突发流量特征,如模拟节点之间大量的数据交换以及短时间内的突发数据传输,来测试网络性能。目的在于提高GPU和网络的利用效率,帮助客户在网络部署前发现问题,避免上线后出现故障。
具体而言,其工作负载模拟功能将大型语言模型(LLM)和其他人工智能模型训练所需要的工作负载,集成到AI基础设施组件的设计和验证中——包括网络、主机和加速器,从而实现了硬件设计、协议、架构和AI训练算法之间的更紧密协同,提升系统性能。
李坚认为,KAI数据中心构建器的工作负载仿真解决方案再现了真实AI训练任务的网络通信模式,加速模型训练优化所需的学习曲线,并更深入洞察性能下降的原因,这些是现实AI训练任务过程中难以获得的。考虑到AI服务提供商使用各种并行处理策略来加速AI模型训练,那么将模型并行与AI集群拓扑和配置协同可以提高训练性能。
是德科技大中华区高速数字市场部经理李坚
- 互连与网络性能测试仪
几十年来,验证网络互连性能需要手动操作,耗费大量时间,自动化程度有限或根本无法实现,并且需要高级编程技能来编写脚本。该过程还缺乏一个集中系统来整理和存储互连数据及报告,因此很难跟踪和复制测试和配置。随着AI和数据中心互连的多样性和规模不断增加,这些传统测试方法无法准确预测和衡量当今复杂AI网络的可靠性。

新的互连和网络性能测试系统通过互连与网络性能测试仪(INPT-1600GE)搭配ITS软件,可以作为一个整体系统,智能地组织、存储和使用数据,实现高速以太网网络和AI数据中心中的互连自动化验证。
具体而言,互连与网络性能分析仪的速率为1.6T,不仅能进行物理层测试,还支持层2的前向误码测试和层3的流量控制、调节等测试,功能更加全面,非常适合光模块、电模块、网卡、交换机厂商。

李坚表示,得益于前端和后端数字信号处理采用大量自研芯片,该套测试系统在高性能和集成度之间实现了良好平衡,能够同时测两个光模块并为其供电,单个模块供电可达40W。此外,配套采用的互联测试软件(ITS)在提升测试效率的同时增加了测试的可靠性。
- DCA-M采样示波器
DCA-M采样示波器提供高达240Gbps/通道的高速光信号分析,并且专为满足1.6T收发器光学测试的严格要求而设计,具有高光学测量灵敏度和集成时钟恢复功能,支持高达120GBaud的数据速率,专门针对数据中心AI集群的下一代光互连的研发和制造需求。
李坚指出,整个网络正在迅速地向400G、800G、1.6T,甚至更高的3.2T发展,但1.6T光互连在AI数据中心网络的快速部署带来了显著的测量挑战。因为数据速率极高且信号完整性要求严格,工程师需要在广泛的操作条件下对收发器的性能进行表征和验证,这需要具有卓越带宽、低噪声和高灵敏度的精确测试设备。在制造过程中,自动化测试必须高效、可扩展且精确,以验证大量关键参数,确保高吞吐量和产量,同时满足数据中心要求并符合行业标准。

结语
总体而言,凭借KAI系列解决方案,AI提供商、半导体制造商和网络设备制造商将首先能够调试先进的高速数字设计,继而满足或超过最新的PCIe、DDR和CXL标准。其次,在加速开发方面,厂商将能够验证组件级合规性,包括高速互连、电缆和芯片组,并在系统级层面验证工作负载性能。在此基础上,整个数据中心通过使用端到端仿真在大规模部署前找出系统性能问题,降低工作负载失败的风险,实现了系统级性能的验证和优化。