• 资讯
  • 报告
当前位置:中研网 > 结果页

AI背景下光模块发展将提速

以ChatGPT为代表的AIGC快速发展,对网络端也催生了更大带宽需求。无论是训练侧还是推理侧,对光模块的需求都较为强劲。800G光模块量产窗口已至,叠加AIGC带来的竞赛,北美各大云厂商和相关科技巨头均有望在2024年大量采购800G光模块。光芯片作为光器件的关键元器件之一

近期,ChatGPT的爆红引发了人们对于人工智能发展的高度关注。2022年11月30日,OpenAI发布语言模型ChatGPT。该模型采用对话的形式与人进行交互,可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求。ChatGPT不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。

ChatGPT用户数攀升。据瑞银集团数据显示,ChatGPT推出仅两个月后月活用户已经突破1亿,成为史上用户增长速度最快的消费级应用程序。根据SensorTower数据显示,TikTok达到1亿用户用了9个月,Instagram则花了2年半的时间。2023年1月,ChatGPT平均每天大约有1300万独立访客,是2022年12月的两倍之多。

ChatGPT运行背后需要强大的云计算算力支撑。OpenAI在2018年推出的GPT参数量为1.17亿,预训练数据量约5GB,而GPT-3参数量达1750亿,预训练数据量达45TB。在模型训练阶段,ChatGPT的总算力消耗约为3640PF-days,总训练成本为1200万美元。在服务访问阶段则会有更大消耗,据测算,仅满足当前ChatGPT日常用户搜索访问,使用服务器(GPU)进行处理,对应算力基础设施初始投入成本约为30-40亿美元。2月7日晚,ChatGPT再次因访问量激增而宕机,体现出AI应用对于云计算的海量算力需求。

以ChatGPT为代表的AIGC技术,依靠强大的AI模型和海量数据,能够在多个应用场景下产生优质的内容,有望推动人工智能更广泛的应用。算力作为AIGC技术的重要支撑之一,是影响AI发展与应用的核心因素。算力基础设施成了目前行业亟需布局的资源,除了CPU/GPU等算力硬件需求强劲,网络端也催生了更大带宽需求,以匹配日益增长的流量。与传统数据中心的网络架构相比,AI数据中心的网络架构可能存在一些变化。

在传统的数据中心中,网络侧主要包括传统树形三层架构和叶脊架构。早期的数据中心一般采用传统的三层结构,包括接入层、汇聚层和核心层,其中接入层用于连接计算节点与机柜交换机,汇聚层用于接入层的互联,核心层用于汇聚层的互联且实现与外部网络连接。随着数据中心内部东西向流量的快速提升,三层网络架构的核心层和汇聚层任务加重,性能提升需求高,设备成本将大幅提升。因此,适用于东西向流量的扁平化的叶脊网络架构应运而生,叶交换机直接与计算节点相连,脊交换机相当于核心交换机,通过ECMP动态选择多条路径。叶脊网络架构具备带宽利用率高、扩展性好、网络延迟可预测和安全性高等优势,在数据中心中实现广泛的应用。

AI数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一。英伟达的AI数据中心中,采用了胖树(fat-tree)的网络架构来实现无阻塞的功能。胖树的网络架构基本理念为:使用大量低性能的交换机,构建出大规模的无阻塞网络,对于任意的通信模式,总有路径让他们的通信带宽达到网卡带宽,架构中用到的所有交换机都是相同的。胖树网络架构一般用于网络要求较高的数据中心中,如超算中心和AI数据中心等。

在英伟达DGXA100SuperPOD的AI数据中心系统中,三层交换机全部为NvidiaQuantumQM8790的40端口交换机。第一层交换机与1120张MellanoxHDR200GInfiniband网卡连接;第二层交换机下传端口与第一层相连,上传端口与第三层互联;第三层交换机只有下传端口,与第二层相连。此外,存储侧独立组网,与计算侧网络架构分开,也需要一定数量的交换机和光模块。因此,相比较传统数据中心,AI数据中心中的交换机及光模块数量大幅提升。

英伟达的A100GPU主要对应200G光模块,H100GPU可以对应400G或800G光模块。每个A100GPU配一张MellanoxHDR200Gb/sInfiniband网卡,每个H100GPU配一张MellanoxNDR400Gb/sInfiniband网卡。英伟达在H100SuperPOD的设计中,采用了800G的光模块,在光口采用1个800G光模块可以替代2个400G光模块,在电口也可以将8个SerDes通道进行整合,与光口的8个100G通道一一对应。因此这种设计下,交换机的通道密度提高,物理尺寸显著降低。

图:MellanoxHDR200Gb/sInfiniband网卡

光模块速率由网卡决定,网卡的速率受限于PCIe通道速率。英伟达A100的DGX服务器内部通过NVLink3连接,单向带宽为300GB/s,但是A100GPU连接ConnectX-6网卡是通过16个PCIe4.0通道,带宽总和为200G左右,因此网卡带宽为200G,需要连接200G的光模块或者DAC电缆。H100的DGX服务器内部通过NVLink4连接,单向带宽为450GB/s,但是H100GPU连接ConnectX-7网卡是通过16个PCIe5.0通道,带宽总和为400G左右,因此单个网卡带宽为400G。可以看出,光模块速率是由于网卡与GPU之间的PCIe带宽所决定。假设A100和H100的DGX服务器内部所用PCIe通道速率达到800G(即PCIe6.0),那么也可以采用800G带宽的网卡,即也可以采用800G光模块,大大提升系统计算效率。
NVLink带宽远大于网卡侧的PCIe带宽,因此若将NVLink从服务器内部GPU互连拓宽至不同服务器之间的GPU的互连,将显著提升系统的带宽。若要实现不同服务器之间按照NVLink协议的GPU互连,除了需要采用NVSwitch芯片的物理交换机,还需要物理器件来实现交换机和服务器之间的连接,那么光模块也成为了重要的组成部分,从而也会大幅增长800G光模块的需求。目前该方案仍然处于前沿研发阶段,若要规模化商用仍需时日。但是NVLink较高的带宽仍然是非常具有吸引力的,一旦方案成熟,有望快速实现广泛应用。

训练侧光模块需求与GPU出货量强相关,推理侧光模块需求与数据流量强相关。AI对光模块需求的拉升主要分为两个阶段,训练和推理。其中,训练侧的网络架构以胖树架构为主,因为在大模型训练过程中,对于网络性能的要求很高,网络无阻塞是重要的需求之一,比如腾讯用于大模型训练的星脉网络采用了胖树架构。同时,我们认为大部分厂商会采用Infiniband协议的网络,时延远低于网,可以提升计算效率,缩短模型训练时间。训练侧光模块的需求与所用GPU显卡的数量强相关,根据胖树架构中GPU和光模块的比例关系可以得到所需光模块的数量,A100对应200G光模块,H100对应400G或者800G光模块。推理侧面向用户侧,网络架构更接近于传统云计算数据中心的叶脊架构,主要用于承载AI应用带来的数据流量增量。传统云计算主要是ToB市场,用户数量不多,若未来出现图片或视频相关的爆款AI应用,一方面用户数量有望大幅提升,另一方面单个用户产生的数据流量可能会显著增长,因此数据总流量将暴增,所以推理所需的算力和流量实际上可能远大于训练,因此对于包括光模块在内的网络设备需求将起到有力的支撑和提振。

北美云厂商收入及资本开支增速有所放缓,若不考虑AI增量,今年传统云计算市场需求预计将持续低迷。2022Q4,北美三家云厂商亚马逊、谷歌和微软的云业务收入总计502亿美元(其中Meta的云相关收入未披露),同比增长20.7%,环比增长5.2%,增速有所放缓。2022Q4,北美四家云厂商的资本开支为395.04亿美元,同比增长8.1%。其中,Meta的资本开支为90.43亿美元,同比增长68.4%,微软同比增长6.97%,谷歌同比增长18.99%,亚马逊同比降低12.37%(2015Q4以来首次单季度负增长)。海外云厂商的Capex增速放缓,也影响了数通光模块市场的需求,若不考虑AI增量带来的拉动,传统云计算市场的需求处于低迷状态。

2022Q4,亚马逊的云业务收入为213.78亿美元,同比增长20.2%,环比增长4%;2022年云业务收入为800.96亿美元,同比增长28.77%。公司提到了AWS客户在考虑削减在云上的开支,公司也注意到了AWS营收的持续放缓趋势。2022Q4,亚马逊的资本开支为166亿美元,同比下降12%,环比上升1%。2022全年资本开支636亿美元,同比增长4%,与三季度指引基本一致。公司对于下个季度及2023年的资本开支未给指引。

AWS推出AIGC相关的重磅产品,包括生成式AI平台Bedrock服务,支持用户通过API访问亚马逊自己的Titan(泰坦)大模型,由两个全新大语言模型组成;同时支持调用来自AI21Labs、Anthropic、StabilityAI等第三方的多样化模型;此外还推出了两款专门针对生成式AI优化的计算实例EC2Trn1n实例和EC2Inf2。其中,为了提升EC2实例的训练效率,AWS采用了第二代ElasticFabricAdapter(EFA),网络带宽为800Gbps。因此,亚马逊有望在AI上增加资本开支,继400G光模块之后,公司有望在大规模采购800G光模块。

多家光模块厂商具备800G光模块能力,国内多家厂商具备较强的竞争力。在2023年的OFC光博会上,各家光模块公司均推出了自己的800G光模块产品,涵盖不同封装方式、材料和传输距离等种类。值得一提的是,国内厂商在100G和400G光模块时代已经取得了显著的进展,跻身全球先进水平。在数通800G光模块时代,以中际旭创和新易盛为代表的国内厂商有望延续400G时代的竞争力,同时华工科技、剑桥科技、博创科技、光迅科技和德科立等公司也有望取得突破。

中研网公众号

关注公众号

免费获取更多报告节选

免费咨询行业专家

延伸阅读

推荐阅读

ChatGPT催化医疗AI进一步发展

AI医疗产业主要包括上游基础层,中游技术层,下游应用层。行业巨头偏向基础层,在算力等领域已呈寡头局面,技术壁垒较...

2022年国内体育公司投融资事件分析

2022年上半年,国内体育相关公司的投融资事件共有33起,其中透露了投融资金额的共29起,总额约合10.738亿元人民币。20...

AI背景下教育行业的发展

教育信息化是国家信息化的重要组成部分,其核心内容是教学信息化。教育信息化是在教育领域全面深入地运用现代信息技术...

AI背景下建筑行业的应用现状和前景

ChatGPT是自然语言处理发展的产物。自然语言处理(NaturalLanguageProcessing,NLP)作为人工智能的重要研究方向,旨在...

ChatGPT 热潮背景下 芯片及服务器上游投资价值凸显

GPT-4是一个大型的多模态模型,相比上一代ChatGPT新增了图像功能,同时具备更精准的语言理解能力。GPT的升级背后是Ope...

半导体阀的国产替代

阀门作为一种常见机械装置,除工业生产、生活等应用领域外,也普遍应用于各种半导体设备之中,是其真空系统和流体系统...

猜您喜欢

【版权及免责声明】凡注明"转载来源"的作品,均转载自其它媒体,转载目的在于传递更多的信息,并不代表本网赞同其观点和对其真实性负责。中研网倡导尊重与保护知识产权,如发现本站文章存在内容、版权或其它问题,烦请联系。联系方式:jsb@chinairn.com、0755-23619058,我们将及时沟通与处理。

中研普华集团联系方式广告服务版权声明诚聘英才企业客户意见反馈报告索引网站地图 Copyright © 1998-2022 ChinaIRN.COM All Rights Reserved.    版权所有 中国行业研究网(简称“中研网”)    粤ICP备05036522号

研究报告

中研网微信订阅号微信扫一扫