19
2023
04

【华安通信张天】眼里有光,同时也要去伪存真


【华安通信张天】眼里有光,同时也要去伪存真


1)英伟达800g模型最新更新:近期我们看到大家对于800g光模块需求测算存在不同观点,我们最早测算一台8gpu dgx h100对应5个800g+10个400g,此模型基于服务器用cable交换机用光模块得出,近期友商测算每个gpu就需要5个以上800g,两种测算都有道理,不过目前后者可能时机并不成熟。


2)h100 superpod有Infiniband和nvswitch两种pod内(即32服务器)组网方案。如果是IB版,每台服务器有4个osfp口,leaf和spine使用QM9700交换机,光模块需求或为每台服务器16个800g+5个400g(主要存储用),此假设为服务器和交换机上全用光模块。或者在leaf使用400g端口下,8个800g+21个400g。或者在服务器用cable,leaf用400g下,4个800g+11个400g+4根800 fanout 400g cable。


3)如果是nvswitch版,英伟达在单个pod内使用nvswitch交换机。8个gpu共28.8t nvlink流量的一半与L2层外部nvswitch交换机互联,即单服务器使用了18个800g OSFP端口,需要18个外部nvswitch交换机。此方案下单服务器需要36个800g光模块或部分cable。如果要横向扩展多pod互联则需要IB网络,即nvswitch全为增量!最大情况下,一个服务器需要52个800g!


4)以上讨论可见。nvswitch版网络成本非常高昂,且对服务器功耗散热形成很大挑战。从目前英伟达发布的h100版本看,似乎还没见到nvswitch版部署,英伟达的白皮书也为IB版。从实际测试看,nvswitch版和IB版仅在5000亿超大模型训练时间显示出了40%的时间优势,其他训练或推理没有太大区别。


5)我们认为nvswitch至少为高速光模块市场需求打开充分想象空间,当前需求仍以IB版为主,建议按照单服务器10个800g测算,按照nv版测算的业绩短期很难兑现。此外,光模块的发展历程中以价换量为常态,nv版ai服务器的上量或在等待光模块成本大幅降低。


投资建议:光模块行业贝塔估值按24年30倍左右测算,按照用户需求和网络架构的改变动态调整估值。


风险提示:组网方案不确定性,大模型政策风险,800g降价超预期等。

上一篇 » 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。