# AI时代的网络:需求缘起与创新方向随着大模型的兴起,网络在AI基础设施中的地位愈发重要。本文将从原理出发,探讨网络为何成为AI时代的关键一环,并分析未来网络侧的创新趋势与投资机会。## 1. 网络需求的来源大模型时代,模型体积与单卡算力上限差距迅速拉大,多服务器集群成为解决方案,这构成了AI时代网络重要性提升的基础。相较于过去单纯用于传输数据,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出更高要求。**日益庞大的模型体积:**- 训练耗时 = 训练数据规模 x 模型参数量 / 计算速率 - 计算速率 = 单设备计算速率 x 设备数 x 多设备并行效率在追求更大规模训练数据和参数的同时,提升计算效率成为缩短训练时间的关键。而如何通过网络扩大"设备数"和提高"并行效率"直接决定了算力水平。**多卡同步的复杂沟通:** 在大模型训练中,将模型切分至单卡后,每次计算后都需要进行对齐(Reduce、Gather等)。英伟达的NCCL通信原语中,All-to-All(所有节点互相获取值并对齐)操作较为常见,对网络传输和交换提出更高要求。**愈发昂贵的故障成本:**大模型训练往往持续数月,中断后需要回到之前的断点重新训练。网络中任一环节的故障或高延迟都可能导致中断,造成进度落后和成本上升。现代AI网络已发展成堪比飞机、航母等的复杂系统工程。## 2. 网络创新的方向在算力投资规模膨胀、模型参数持续扩张的背景下,"降本"、"开放"和算力规模的平衡成为网络创新的主要议题。**通信介质的更迭:**光、铜与硅是人类传输的三大介质。AI时代,光模块在追求更高速率的同时,也开始了LPO、LRO、硅光等降本之路。铜缆凭借性价比和低故障率占领了机柜内连接。Chiplet、Wafer-scaling等新半导体技术正在探索硅基互联的上限。**网络协议的竞争:**片间通信协议与显卡强绑定,如英伟达的NV-LINK、AMD的Infinity Fabric等,决定了单台服务器或单个算力节点的能力上限,是巨头的激烈竞争领域。节点间通信则主要围绕IB与以太网展开竞争。**网络架构的变化:**当前节点间网络架构普遍采用叶脊架构,具有便捷、简单、稳定等特点。但随着单个集群节点数增多,叶脊架构在超大集群中显得冗余,带来较大网络成本。Dragonfly架构、rail-only架构等新方案有望成为面向下一代超大集群的演进方向。## 3. 投资建议**通信系统核心环节:** 中际旭创、新易盛、天孚通信、工业富联、英维克、沪电股份**通信系统创新环节:**长飞光纤、太辰光、源杰科技、盛科通信-U、寒武纪、德科立## 4. 风险提示- AI需求不及预期- Scaling law失效 - 行业竞争加剧
AI时代网络需求激增 创新趋势与投资机遇分析
AI时代的网络:需求缘起与创新方向
随着大模型的兴起,网络在AI基础设施中的地位愈发重要。本文将从原理出发,探讨网络为何成为AI时代的关键一环,并分析未来网络侧的创新趋势与投资机会。
1. 网络需求的来源
大模型时代,模型体积与单卡算力上限差距迅速拉大,多服务器集群成为解决方案,这构成了AI时代网络重要性提升的基础。相较于过去单纯用于传输数据,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出更高要求。
日益庞大的模型体积:
在追求更大规模训练数据和参数的同时,提升计算效率成为缩短训练时间的关键。而如何通过网络扩大"设备数"和提高"并行效率"直接决定了算力水平。
多卡同步的复杂沟通: 在大模型训练中,将模型切分至单卡后,每次计算后都需要进行对齐(Reduce、Gather等)。英伟达的NCCL通信原语中,All-to-All(所有节点互相获取值并对齐)操作较为常见,对网络传输和交换提出更高要求。
愈发昂贵的故障成本: 大模型训练往往持续数月,中断后需要回到之前的断点重新训练。网络中任一环节的故障或高延迟都可能导致中断,造成进度落后和成本上升。现代AI网络已发展成堪比飞机、航母等的复杂系统工程。
2. 网络创新的方向
在算力投资规模膨胀、模型参数持续扩张的背景下,"降本"、"开放"和算力规模的平衡成为网络创新的主要议题。
通信介质的更迭: 光、铜与硅是人类传输的三大介质。AI时代,光模块在追求更高速率的同时,也开始了LPO、LRO、硅光等降本之路。铜缆凭借性价比和低故障率占领了机柜内连接。Chiplet、Wafer-scaling等新半导体技术正在探索硅基互联的上限。
网络协议的竞争: 片间通信协议与显卡强绑定,如英伟达的NV-LINK、AMD的Infinity Fabric等,决定了单台服务器或单个算力节点的能力上限,是巨头的激烈竞争领域。节点间通信则主要围绕IB与以太网展开竞争。
网络架构的变化: 当前节点间网络架构普遍采用叶脊架构,具有便捷、简单、稳定等特点。但随着单个集群节点数增多,叶脊架构在超大集群中显得冗余,带来较大网络成本。Dragonfly架构、rail-only架构等新方案有望成为面向下一代超大集群的演进方向。
3. 投资建议
通信系统核心环节: 中际旭创、新易盛、天孚通信、工业富联、英维克、沪电股份
通信系统创新环节: 长飞光纤、太辰光、源杰科技、盛科通信-U、寒武纪、德科立
4. 风险提示