当前位置：中研网 > 结果页

AI背景下光模块发展将提速

柯壮宾 2023年5月10日 来源：中研网 701 41
繁体

以ChatGPT为代表的AIGC快速发展，对网络端也催生了更大带宽需求。无论是训练侧还是推理侧，对光模块的需求都较为强劲。800G光模块量产窗口已至，叠加AIGC带来的竞赛，北美各大云厂商和相关科技巨头均有望在2024年大量采购800G光模块。光芯片作为光器件的关键元器件之一

近期，ChatGPT的爆红引发了人们对于人工智能发展的高度关注。2022年11月30日，OpenAI发布语言模型ChatGPT。该模型采用对话的形式与人进行交互，可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求。ChatGPT不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力，还具有生成代码、调试代码、为代码生成注释的能力。

ChatGPT用户数攀升。据瑞银集团数据显示，ChatGPT推出仅两个月后月活用户已经突破1亿，成为史上用户增长速度最快的消费级应用程序。根据SensorTower数据显示，TikTok达到1亿用户用了9个月，Instagram则花了2年半的时间。2023年1月，ChatGPT平均每天大约有1300万独立访客，是2022年12月的两倍之多。

ChatGPT运行背后需要强大的云计算算力支撑。OpenAI在2018年推出的GPT参数量为1.17亿，预训练数据量约5GB，而GPT-3参数量达1750亿，预训练数据量达45TB。在模型训练阶段，ChatGPT的总算力消耗约为3640PF-days，总训练成本为1200万美元。在服务访问阶段则会有更大消耗，据测算，仅满足当前ChatGPT日常用户搜索访问，使用服务器（GPU）进行处理，对应算力基础设施初始投入成本约为30-40亿美元。2月7日晚，ChatGPT再次因访问量激增而宕机，体现出AI应用对于云计算的海量算力需求。

以ChatGPT为代表的AIGC技术，依靠强大的AI模型和海量数据，能够在多个应用场景下产生优质的内容，有望推动人工智能更广泛的应用。算力作为AIGC技术的重要支撑之一，是影响AI发展与应用的核心因素。算力基础设施成了目前行业亟需布局的资源，除了CPU/GPU等算力硬件需求强劲，网络端也催生了更大带宽需求，以匹配日益增长的流量。与传统数据中心的网络架构相比，AI数据中心的网络架构可能存在一些变化。

在传统的数据中心中，网络侧主要包括传统树形三层架构和叶脊架构。早期的数据中心一般采用传统的三层结构，包括接入层、汇聚层和核心层，其中接入层用于连接计算节点与机柜交换机，汇聚层用于接入层的互联，核心层用于汇聚层的互联且实现与外部网络连接。随着数据中心内部东西向流量的快速提升，三层网络架构的核心层和汇聚层任务加重，性能提升需求高，设备成本将大幅提升。因此，适用于东西向流量的扁平化的叶脊网络架构应运而生，叶交换机直接与计算节点相连，脊交换机相当于核心交换机，通过ECMP动态选择多条路径。叶脊网络架构具备带宽利用率高、扩展性好、网络延迟可预测和安全性高等优势，在数据中心中实现广泛的应用。

AI数据中心中，由于内部数据流量较大，因此无阻塞的胖树网络架构成了重要需求之一。英伟达的AI数据中心中，采用了胖树（fat-tree）的网络架构来实现无阻塞的功能。胖树的网络架构基本理念为：使用大量低性能的交换机，构建出大规模的无阻塞网络，对于任意的通信模式，总有路径让他们的通信带宽达到网卡带宽，架构中用到的所有交换机都是相同的。胖树网络架构一般用于网络要求较高的数据中心中，如超算中心和AI数据中心等。

在英伟达DGXA100SuperPOD的AI数据中心系统中，三层交换机全部为NvidiaQuantumQM8790的40端口交换机。第一层交换机与1120张MellanoxHDR200GInfiniband网卡连接；第二层交换机下传端口与第一层相连，上传端口与第三层互联；第三层交换机只有下传端口，与第二层相连。此外，存储侧独立组网，与计算侧网络架构分开，也需要一定数量的交换机和光模块。因此，相比较传统数据中心，AI数据中心中的交换机及光模块数量大幅提升。

英伟达的A100GPU主要对应200G光模块，H100GPU可以对应400G或800G光模块。每个A100GPU配一张MellanoxHDR200Gb/sInfiniband网卡，每个H100GPU配一张MellanoxNDR400Gb/sInfiniband网卡。英伟达在H100SuperPOD的设计中，采用了800G的光模块，在光口采用1个800G光模块可以替代2个400G光模块，在电口也可以将8个SerDes通道进行整合，与光口的8个100G通道一一对应。因此这种设计下，交换机的通道密度提高，物理尺寸显著降低。

图:MellanoxHDR200Gb/sInfiniband网卡

光模块速率由网卡决定，网卡的速率受限于PCIe通道速率。英伟达A100的DGX服务器内部通过NVLink3连接，单向带宽为300GB/s，但是A100GPU连接ConnectX-6网卡是通过16个PCIe4.0通道，带宽总和为200G左右，因此网卡带宽为200G，需要连接200G的光模块或者DAC电缆。H100的DGX服务器内部通过NVLink4连接，单向带宽为450GB/s，但是H100GPU连接ConnectX-7网卡是通过16个PCIe5.0通道，带宽总和为400G左右，因此单个网卡带宽为400G。可以看出，光模块速率是由于网卡与GPU之间的PCIe带宽所决定。假设A100和H100的DGX服务器内部所用PCIe通道速率达到800G（即PCIe6.0），那么也可以采用800G带宽的网卡，即也可以采用800G光模块，大大提升系统计算效率。
NVLink带宽远大于网卡侧的PCIe带宽，因此若将NVLink从服务器内部GPU互连拓宽至不同服务器之间的GPU的互连，将显著提升系统的带宽。若要实现不同服务器之间按照NVLink协议的GPU互连，除了需要采用NVSwitch芯片的物理交换机，还需要物理器件来实现交换机和服务器之间的连接，那么光模块也成为了重要的组成部分，从而也会大幅增长800G光模块的需求。目前该方案仍然处于前沿研发阶段，若要规模化商用仍需时日。但是NVLink较高的带宽仍然是非常具有吸引力的，一旦方案成熟，有望快速实现广泛应用。

训练侧光模块需求与GPU出货量强相关，推理侧光模块需求与数据流量强相关。AI对光模块需求的拉升主要分为两个阶段，训练和推理。其中，训练侧的网络架构以胖树架构为主，因为在大模型训练过程中，对于网络性能的要求很高，网络无阻塞是重要的需求之一，比如腾讯用于大模型训练的星脉网络采用了胖树架构。同时，我们认为大部分厂商会采用Infiniband协议的网络，时延远低于网，可以提升计算效率，缩短模型训练时间。训练侧光模块的需求与所用GPU显卡的数量强相关，根据胖树架构中GPU和光模块的比例关系可以得到所需光模块的数量，A100对应200G光模块，H100对应400G或者800G光模块。推理侧面向用户侧，网络架构更接近于传统云计算数据中心的叶脊架构，主要用于承载AI应用带来的数据流量增量。传统云计算主要是ToB市场，用户数量不多，若未来出现图片或视频相关的爆款AI应用，一方面用户数量有望大幅提升，另一方面单个用户产生的数据流量可能会显著增长，因此数据总流量将暴增，所以推理所需的算力和流量实际上可能远大于训练，因此对于包括光模块在内的网络设备需求将起到有力的支撑和提振。

北美云厂商收入及资本开支增速有所放缓，若不考虑AI增量，今年传统云计算市场需求预计将持续低迷。2022Q4，北美三家云厂商亚马逊、谷歌和微软的云业务收入总计502亿美元（其中Meta的云相关收入未披露），同比增长20.7%，环比增长5.2%，增速有所放缓。2022Q4，北美四家云厂商的资本开支为395.04亿美元，同比增长8.1%。其中，Meta的资本开支为90.43亿美元，同比增长68.4%，微软同比增长6.97%，谷歌同比增长18.99%，亚马逊同比降低12.37%（2015Q4以来首次单季度负增长）。海外云厂商的Capex增速放缓，也影响了数通光模块市场的需求，若不考虑AI增量带来的拉动，传统云计算市场的需求处于低迷状态。

2022Q4，亚马逊的云业务收入为213.78亿美元，同比增长20.2%，环比增长4%；2022年云业务收入为800.96亿美元，同比增长28.77%。公司提到了AWS客户在考虑削减在云上的开支，公司也注意到了AWS营收的持续放缓趋势。2022Q4，亚马逊的资本开支为166亿美元，同比下降12%，环比上升1%。2022全年资本开支636亿美元，同比增长4%，与三季度指引基本一致。公司对于下个季度及2023年的资本开支未给指引。

AWS推出AIGC相关的重磅产品，包括生成式AI平台Bedrock服务，支持用户通过API访问亚马逊自己的Titan（泰坦）大模型，由两个全新大语言模型组成；同时支持调用来自AI21Labs、Anthropic、StabilityAI等第三方的多样化模型；此外还推出了两款专门针对生成式AI优化的计算实例EC2Trn1n实例和EC2Inf2。其中，为了提升EC2实例的训练效率，AWS采用了第二代ElasticFabricAdapter（EFA），网络带宽为800Gbps。因此，亚马逊有望在AI上增加资本开支，继400G光模块之后，公司有望在大规模采购800G光模块。

多家光模块厂商具备800G光模块能力，国内多家厂商具备较强的竞争力。在2023年的OFC光博会上，各家光模块公司均推出了自己的800G光模块产品，涵盖不同封装方式、材料和传输距离等种类。值得一提的是，国内厂商在100G和400G光模块时代已经取得了显著的进展，跻身全球先进水平。在数通800G光模块时代，以中际旭创和新易盛为代表的国内厂商有望延续400G时代的竞争力，同时华工科技、剑桥科技、博创科技、光迅科技和德科立等公司也有望取得突破。

关注公众号

免费获取更多报告节选

免费咨询行业专家

相关深度报告REPORTS

2023-2028年中国光模块行业深度调研与投资战略规划分析报告

光模块是进行光电和电光转换的光电子器件。光模块的发送端把电信号转换为光信号，接收端把光信号转换为电信号。光模块按照封装形式分类，常见的有SFP，SFP+，SFF，千兆以太网路界面转换器（GBI...

查看详情

产业规划 特色小镇 产业园区规划 产业地产 可研报告 商业计划书 细分市场研究 IPO上市咨询

光模块 AI chatGPT

41

延伸阅读

1如何应对2020年新形势下中国光模块行业的变化与挑战！1138

2中国经济基本面稳定，但动力和质量较为不足，光模块行业发展如何受限？892

3经济数字化趋势突出，光器件及光模块行业如何借力发力，企业如何迈出更大一步？692

4技术升级提升竞争力，行业转型增强优势，光模块行业企业如何选择？492

5投资与产出不成正比，光模块企业如何做出正确的投资规划和战略选择？346

6行业集中度在不断提升，不进则退。光器件及光模块情报分析把握有力发展方向！192

ChatGPT催化医疗AI进一步发展

AI医疗产业主要包括上游基础层，中游技术层，下游应用层。行业巨头偏向基础层，在算力等领域已呈寡头局面，技术壁垒较...

2022年国内体育公司投融资事件分析

2022年上半年，国内体育相关公司的投融资事件共有33起，其中透露了投融资金额的共29起，总额约合10.738亿元人民币。20...

AI背景下教育行业的发展

教育信息化是国家信息化的重要组成部分，其核心内容是教学信息化。教育信息化是在教育领域全面深入地运用现代信息技术...

AI背景下建筑行业的应用现状和前景

ChatGPT是自然语言处理发展的产物。自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的重要研究方向，旨在...

ChatGPT 热潮背景下芯片及服务器上游投资价值凸显

GPT-4是一个大型的多模态模型，相比上一代ChatGPT新增了图像功能，同时具备更精准的语言理解能力。GPT的升级背后是Ope...

半导体阀的国产替代

阀门作为一种常见机械装置，除工业生产、生活等应用领域外，也普遍应用于各种半导体设备之中，是其真空系统和流体系统...

猜您喜欢

【版权及免责声明】凡注明"转载来源"的作品，均转载自其它媒体，转载目的在于传递更多的信息，并不代表本网赞同其观点和对其真实性负责。中研网倡导尊重与保护知识产权，如发现本站文章存在内容、版权或其它问题，烦请联系。联系方式：jsb@chinairn.com、0755-23619058，我们将及时沟通与处理。

报告

研究院服务号
中研网订阅号