必发88bifa88BIFAAPP官网◈★★,bifa·必发必发888唯一登录网站◈★★,必发·bifa(中国集团)唯一官方网站◈★★,bifa必发唯一官网◈★★,数据线缆◈★★。当下AI大模型的用户渗透率仍较低◈★★,大模型发展仍处于中初级阶段◈★★,产业化周期才开始◈★★,大模型带来的算力投资方兴未艾◈★★,资本开支会随着大模型收入的增长而增长◈★★,投资的天花板可以很高◈★★。我们持续推荐AI算力板块◈★★,包括国内算力产业链与北美算力产业链◈★★。
人工智能2025中期投资策略报告◈★★:推理走向舞台中央◈★★,自主可控大势所趋◈★★,Agent及多模态加速
博通公布截至2025年8月3日的2025财年第三财季业绩◈★★,营收◈★★、利润及业务指引全面超越市场预期◈★★。第三财季◈★★,博通实现营业收入159.5亿美元◈★★,同比增长22%◈★★,高于分析师预期的158.4亿美元◈★★,亦超出公司此前指引的158亿美元◈★★,创下公司历史上同期最高营收纪录◈★★,非GAAP口径下调整后净利润达84.04亿美元◈★★,同比增长37.3%◈★★;调整后EBITDA为107.02亿美元◈★★,同比增长30.1%◈★★,超出市场预期的约105亿美元◈★★,利润率升至67.1%◈★★,前一季度利润率66.7%◈★★。同时◈★★,公司对第四财季给出强劲指引◈★★,预计营收约为174亿美元◈★★,同比增长23.8%◈★★,超过市场预期的170.5亿美元◈★★;EBITDA利润率预计维持在67%左右◈★★,高于分析师预期的66%◈★★。
博通CEO陈福阳表示◈★★,公司第三财季AI半导体收入同比增长63%至52亿美元◈★★,高于分析师预期的51.1亿美元◈★★,且增速较上一季度的46%进一步提升◈★★。展望第四财季◈★★,博通预计AI芯片业务收入将大幅增长至62亿美元◈★★,实现连续11个季度增长◈★★,相当于环比增幅达19%◈★★。该指引较市场预期高出逾6%◈★★。陈福阳表示◈★★,公司正与多家潜在客户合作开发定制AI加速器◈★★,正式进军由英伟达主导的AI训练芯片市场◈★★。上个季度777sao◈★★,其中一家潜在客户已向博通下达生产订单◈★★。虽未具名◈★★,但该“神秘客户”已确认为博通XPU平台的合格客户◈★★,并带来高达100亿美元的订单◈★★,成为继现有三大客户后的第四大定制AI客户◈★★。
我们认为◈★★,当下AI大模型的用户渗透率仍较低◈★★,大模型发展仍处于中初级阶段◈★★,产业化周期才开始◈★★,大模型带来的算力投资方兴未艾◈★★,资本开支会随着大模型收入的增长而增长◈★★,投资的天花板可以很高◈★★。我们持续推荐AI算力板块◈★★,包括国内算力产业链与北美算力产业链◈★★。
阿里发布2025Q2业绩◈★★,2025Q2阿里云业务营收333.98亿元◈★★,同比增长26%◈★★,AI相关收入继续保持三位数增长◈★★,外部商业化收入中AI贡献已超过20%◈★★,AI需求快速扩大◈★★,同时带动计算◈★★、存储及其它公有云服务需求上升◈★★。2025年第二季度◈★★,阿里巴巴的资本开支为386亿元◈★★,同比增长220%◈★★,环比上季增长57.1%◈★★,创下单季历史新高◈★★。在财报电话会上◈★★,阿里巴巴CEO吴泳铭披露◈★★,过去四个季度◈★★,阿里已经在AI基础设施及AI产品研发上累计投入超1000亿元◈★★。公司重申◈★★,将在未来三年持续投入3800亿元用于AI资本开支◈★★,虽单季投资额会因供应链因素有所波动◈★★,但整体节奏不变◈★★。阿里透露◈★★,公司已为全球AI芯片供应及政策变化准备“后备方案”◈★★,通过与不同合作伙伴合作◈★★,建立多元化的供应链储备◈★★,从而确保投资计划能够如期推进◈★★。目前阿里已实现AI投入增加带来AI收入增加的正循环◈★★,建议关注阿里产业链◈★★,包括GPU◈★★、IDC◈★★、光模块◈★★、交换机等◈★★。
英伟达发布最新财季业绩◈★★,需求持续强劲◈★★,H20影响了公司收入◈★★。截至自然年2025年7月27日的FY26Q2◈★★,英伟达实现营收467.43亿美元◈★★,同比增长56%◈★★,其中数据中心营收411亿美元(H20销售收入减少40亿美元)◈★★,同比增长56%◈★★,Blackwell平台环比增长17%◈★★,并且公司在第二季度开始了GB300的生产出货◈★★。基于Blackwell架构◈★★,每token可实现10倍投资回报◈★★,相比Hopper在每token能效方面提升了50倍◈★★。FY26Q2◈★★,公司非GAAP口径下调整后的每股收益(EPS)为1.05美元◈★★,同比增长54%◈★★;公司FY26Q3营收指引中值为540亿美元(±2%)◈★★。英伟达表示◈★★,预计今年CSP等资本开支约6000亿美元◈★★,指引2030年全球AI基础设施支出将达到3万亿-4万亿美元◈★★。英伟达表示◈★★,今年中国市场预计规模约500亿美元◈★★,预计每年有望实现50%左右的增长◈★★。7月下旬◈★★,美国政府开始审查向中国客户销售H20的许可证◈★★,如地缘政治问题得到解决◈★★,公司有望在第三季度实现20亿至50亿美元的H20收入◈★★,此外将Blackwell带到中国市场的机会是真实存在的◈★★。
国务院日前印发《关于深入实施“人工智能+”行动的意见》◈★★。《意见》总体要求◈★★,到2027年◈★★,率先实现人工智能与6大重点领域广泛深度融合◈★★,新一代智能终端◈★★、智能体等应用普及率超70%◈★★,智能经济核心产业规模快速增长◈★★,人工智能在公共治理中的作用明显增强◈★★,人工智能开放合作体系不断完善◈★★。到2030年◈★★,我国人工智能全面赋能高质量发展◈★★,新一代智能终端◈★★、智能体等应用普及率超90%◈★★,智能经济成为我国经济发展的重要增长极◈★★,推动技术普惠和成果共享◈★★。到2035年◈★★,我国全面步入智能经济和智能社会发展新阶段◈★★,为基本实现社会主义现代化提供有力支撑◈★★。
从阿里巴巴以及英伟达的最新财报来看◈★★,国内外CSP厂商对于算力的投资仍然保持强劲的增长◈★★;阿里AI相关收入继续保持三位数增长◈★★,让人看到AI商业化落地的清晰路径◈★★,打消了投资者对AI投资回报的担忧◈★★。我们持续推荐算力板块◈★★,包括海外算力链和国产算力链◈★★。
国产算力板块迎来密集催化◈★★,腾讯业绩会表示推理芯片的供应渠道侧具备多种选择◈★★,国际供应链波动背景下国产推理算力芯片有望提供助力◈★★。DeepSeek更新模型◈★★,明确支持FP8精度与将发布的下一代国产芯片◈★★,头部国产开源模型对国产芯片的支持有望推动国产算力生态加速落地◈★★。华为昇腾芯片近期陆续参与到政府◈★★、金融◈★★、运营商等行业客户招投标产品中◈★★,印证国产芯片竞争力持续提升◈★★。
8月13日◈★★,腾讯业绩会表示公司推理芯片供应渠道侧具备多种选择◈★★。8月21日◈★★,DeepSeek更新模型版本至DeepSeek-V3.1◈★★,预计将支持FP8精度以及国产芯片◈★★。
腾讯业绩会表示未来推理芯片供给有望多元化◈★★,利好国产算力芯片厂商◈★★。8月13日◈★★,腾讯控股发布2025Q2业绩并举办说明会◈★★,会上腾讯总裁刘炽平表示当前公司AI芯片储备足以支持现有模型的训练及迭代升级◈★★;元宝◈★★、AI搜索等多个应用场景的用户数提升带来推理负载占比提升◈★★,公司一方面通过模型轻量化和软件优化来控制推理成本◈★★,另一方面公司在推理芯片的供应渠道侧也具备多种选择◈★★。当前海外高端芯片贸易政策仍存较大不确定性◈★★,腾讯有望依托华为◈★★、寒武纪◈★★、海光等国产厂商的推理芯片满足相关算力需求◈★★。
DeepSeek V3.1发布◈★★,预计支持FP8精度以及国产芯片◈★★。据官方公众号◈★★,DeepSeek今日正式发布DeepSeek-V3.1◈★★。目前官网与网页端模型已升级至最新版本◈★★,且新模型已在Huggingface开源◈★★。新版本模型主要升级体现在以下维度◈★★:(1)一个模型同时支持思考模式与非思考模式◈★★;(2)相比前代模型◈★★,新模型思考模式下能在更短时间内给出答案◈★★;(3)通过Post-Training优化◈★★,新模型具备更强的Agent能力◈★★。除去功能升级◈★★,新版本模型使用了UE8M0 FP8 Scale参数精度◈★★,该参数代表模型支持转为矩阵乘法等AI核心运算优化设计的FP8精度格式◈★★。相比FP16格式◈★★,FP8在同等芯片面积下能够实现翻倍性能◈★★,且功耗和带宽需求更低◈★★。此外◈★★,DeepSeek表示新精度格式针对即将发布的下一代国产芯片设计◈★★,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片◈★★,助力国产算力生态加速建设◈★★。
华为昇腾芯片加速突围◈★★,国产芯片市场竞争力逐步提升◈★★。近期◈★★,基于华为昇腾芯片的服务器产品陆续在政府◈★★、金融◈★★、运营商等行业落地大单◈★★。上海浦发银行大模型算力扩容项目招标中◈★★,包含176台鲲鹏+昇腾配置的智算服务器◈★★;新疆疆算万卡枢纽型智算中心项目招标中◈★★,包含4500台昇腾910C-2服务器集群◈★★;中国移动2025-2026推理AI计算设备招标中◈★★,包含5000套CANN生态设备◈★★,即基于昇腾异构计算架构和昇腾芯片的服务器产品◈★★。由于海外供应链风险持续◈★★,国产芯片厂商产品性价比持续提升◈★★,更多算力需求有望由国产芯片支持◈★★,国产芯片市场竞争力持续提升◈★★。
投资建议◈★★:国产算力板块迎来密集催化◈★★,腾讯业绩会表示推理芯片的供应渠道侧具备多种选择◈★★,国际供应链波动背景下国产推理算力芯片有望提供助力◈★★。DeepSeek更新模型◈★★,明确支持FP8精度与将发布的下一代国产芯片◈★★,头部国产开源模型对国产芯片的支持有望推动国产算力生态加速落地◈★★。华为昇腾芯片近期陆续参与到政府◈★★、金融◈★★、运营商等行业客户招投标产品中◈★★,印证国产芯片竞争力持续提升◈★★。
8月11日◈★★,马斯克旗下的人工智能公司xAI宣布Grok 4现已向全球所有用户免费开放◈★★,用户每天允许进行有限次数的查询◈★★,超出次数则需要付费订阅◈★★。苹果公司宣布◈★★,即将发布的iOS 26系统将集成OpenAI的GPT-5模型◈★★,为Apple智能带来显著的性能提升◈★★,当Apple智能无法处理特定请求时◈★★,将能够利用GPT-5的能力来提供更准确和更智能的响应◈★★。我们认为◈★★,当前AI大模型的用户渗透率仍较低◈★★,大模型发展仍处于中初级阶段◈★★,产业化应用周期才开始◈★★,大模型带来的算力投资方兴未艾◈★★,资本开支会随着大模型收入的增长而增长◈★★,投资的天花板可以很高◈★★。当前对于算力基础设施产业链◈★★,北美链和国产链都值得关注◈★★。
随着各方面应用的加速◈★★,AI算力消耗开始从训练走向推理◈★★,同时主权AI加大投入◈★★,带来显著的算力增量◈★★。探究背后增量需求主要来自四方面◈★★:
一是各家互联网大厂纷纷加速AI与原有业务结合◈★★,如谷歌搜索在今年5月21日正式迎来 AI 模式◈★★,并逐步在美国市场推出◈★★,考虑到谷歌搜索全球范围内年搜索量为5万亿次+◈★★,假设单次回答平均为2000token◈★★,则该功能都将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗)◈★★,类似案例如抖音搜索◈★★、微博AI智搜◈★★,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验◈★★,类似的视频编辑◈★★、剪辑功能也被AI重塑◈★★;
二是Agent和深度思考推理的结合◈★★,通过两者结合◈★★,Agent执行任务准确率大幅提高◈★★,Agent执行一次任务平均消耗token达到10万的量级◈★★,大幅超过AI搜索单次问答token消耗◈★★,并且能延伸到更多开放式场景◈★★,同时多Agent协作的群体智能也已开始逐步商用化◈★★,过去复杂◈★★、多步骤的任务可通过Agent实现◈★★,Agent的普及将带来推理算力需求的大幅增长◈★★;
三是多模态◈★★,随着多模态生成的图片及视频质量今年均显著提升◈★★,今年AI营销内容占比提升十分明显◈★★,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主◈★★,已经在生成创意内容时使用AIGC◈★★,并且AI营销内容占比超过10%”◈★★,而一分钟视频的生成token消耗基本在10万token至百万token量级◈★★,目前多模态模型开始步入快速商业化阶段777sao◈★★,如快手可灵四五月连续两月付费金额超过1亿◈★★,多模态的加速渗透带来明显的算力需求提升◈★★。
四是主权AI◈★★,科研和军事领域是关键◈★★,随之扩展到其他各行业的效率提升◈★★,典型代表为美国重点推进其“星际之门”计划◈★★。与之而来的是各国政府也纷纷开启主权AI的投资计划◈★★,尤其是以欧洲◈★★、中东◈★★、日本等国为代表◈★★,投资体量超过3000亿美金◈★★。
算力方面从投资角度来看◈★★,一是随着推理占比的提升◈★★,云计算厂商投入产出比逐渐清晰◈★★,并且超卖率有望继续提升◈★★,从而带动利润率提升◈★★;二是围绕机柜增量变化及新技术投资◈★★,25年下半年核心是英伟达NVL72机柜上量◈★★,其中液冷散热◈★★、铜连接◈★★、电源变化最大◈★★:三是围绕估值性价比◈★★、景气度投资◈★★,重视PCB◈★★、光模块等供应链◈★★。
1)散热方面◈★★:散热方面将是AI算力领域未来几年核心技术升级方向之一◈★★,英伟达单卡功耗从700瓦到1200◈★★、1400瓦◈★★,未来有望迭代至2000瓦+◈★★,并且大机柜◈★★、超节点的出现◈★★,热源的叠加使得散热难度进一步提升◈★★,因此散热成为了接下来持续迭代升级的方向◈★★。其次◈★★,目前供应商以台系◈★★、美系厂为主◈★★,如Coolermaster◈★★、AVC◈★★、BOYD及台达等◈★★,中国大陆供应商比例较低◈★★,随着液冷散热从研发走向大规模量产◈★★,中国大陆公司扩产能力更具优势◈★★,我们认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系◈★★。
2)铜链接◈★★:铜线在短距数据传输的成熟度更高且448G等新技术路线逐步面世◈★★,今年扩产最快的公司将充分享受从Blackwell到Rubin所带来的高速连接需求增长◈★★。
3)电源领域◈★★:高功率带动单W价值提升◈★★。PSU是服务器电源进行AC-DC转换的核心◈★★,随着单体功率密度的提升◈★★,单W价格也在提升◈★★,呈现量价齐升局面◈★★。新一代GB300等GPU方案中◈★★,BBU◈★★、CBU逐步成为标配◈★★,能够解决负载波动率大的供电稳定◈★★、电压稳定问题◈★★。目前5.5 KW电源已进入量产阶段◈★★,后续伴随2026 下半年800 V HVDC 数据中心电力基础设施及 1 MW IT 机架逐步落地◈★★,电源将持续升级◈★★。随着功率密度要求的提升◈★★,UPS目前正在由600kW级向MW级迈进◈★★,以应对越来越大的功率密度需求◈★★,未来AIDC有望全面切换到HVDC为代表的全直流供电方案◈★★,电压等级也提升至800V◈★★。巴拿马电源等集成化◈★★、模块化产品逐步成为大厂青睐的主流◈★★,更先进的固态变压器(SST)也已开始研发和测试◈★★。
4)PCB◈★★:亚马逊◈★★、META◈★★、谷歌等自研芯片设计能力弱于英伟达◈★★,因此对PCB等材料要求更高◈★★,价值量更有弹性◈★★。随着短距离数据传输要求不断提高◈★★,PCB持续升级◈★★,并带动产业链上游升级◈★★,覆铜板从M6/M7升级到M8/M9◈★★。伴随国内PCB公司在全球份额持续提升◈★★,并带动上游产业链国产化◈★★,从覆铜板出发◈★★,并带动上游高端树脂◈★★、玻纤布◈★★、铜箔等国内份额进一步提升◈★★。
5)光模块◈★★:除了GPU等算力硬件需求强劲◈★★,也催生了网络端更大带宽需求◈★★。优秀的网络性能可以提升计算效率◈★★,显著提升算力水平◈★★。相较于传统的云计算网络◈★★,AI训练组网由叶脊架构向胖树架构转变◈★★,交换机和光模块数量大幅提升◈★★,且随着通信数据量的增加◈★★,对光模块的速率要求也更高◈★★。800G光模块2023年开始放量◈★★,2024-2026年都保持高速增长◈★★;1.6T光模块2025年开始出货◈★★,2026年有望放量◈★★,整个光模块产业链迎来量价齐升的景气周期◈★★。从竞争格局看◈★★,国内光模块巨头经历了一轮又一轮的竞争◈★★,与北美的云厂商深度绑定◈★★,占据了全球光模块市场的主要份额◈★★。从未来技术趋势演进看◈★★,我们建议关注硅光与CPO(共封装光学)◈★★。
6)先进封装◈★★、HBM◈★★:为了解决先进制程成本快速提升和“内存墙”等问题◈★★,Chiplet设计+异构先进封装成为性能与成本平衡的最佳方案◈★★,台积电开发的CoWoS封装技术可以实现计算核心与HBM通过2.5D封装互连◈★★,因此英伟达A100◈★★、H100等AI芯片纷纷采用台积电CoWos封装◈★★,并分别配备40GB HBM2E◈★★、80GB的HBM3内存◈★★。全球晶圆代工龙头台积电打造全球2.5D/3D先进封装工艺标杆◈★★,未来几年封装市场增长主要受益于先进封装的扩产◈★★。先进封装市场的快速增长◈★★,有望成为国内晶圆代工厂商与封测厂商的新一轮成长驱动力◈★★。
7)国内算力链◈★★:一方面来自于美国BIS政策的持续收紧◈★★,中期维度看◈★★,国产芯片占比提升是必然趋势◈★★。考虑到国产芯片逐渐进入量产交付阶段◈★★,预期市场集中度将看到显著提升◈★★。另一方面随着国内算力消耗快速增长(典型如字节跳动◈★★,每三个月token消耗接近翻一倍◈★★,5月底为16.4万亿token)◈★★,我们预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张◈★★,在达到60万亿token时会开始出现一定算力缺口◈★★。我们认为国内增速斜率更陡峭◈★★,国产芯片今年将迎来发展大年◈★★。
2025年8月8日◈★★,GPT-5正式发布◈★★,包含GPT-5◈★★、GPT-5-Mini◈★★、GPT-5-Nano三个版本◈★★。GPT-5在数学◈★★、编程◈★★、视觉理解和健康领域表现突出◈★★,在数学AIME 2025(无工具)测试得分 94.6%◈★★、真实世界编码SWE-bench Verified得分 74.9%◈★★、多模态理解MMMU 得分 84.2%◈★★,健康HealthBench Hard 得分 46.2%◈★★,在各方面均位居前列◈★★。值得一提的是◈★★,GPT-5幻觉显著降低◈★★。在启用网页搜索时◈★★,GPT-5响应的事实错误率较GPT-4o降低约45%◈★★;深度思考模式下◈★★,错误率较OpenAI o3降低近80%◈★★。token定价方面◈★★,GPT-5为每百万输入token 1.25美元◈★★,每百万输出token 10美元◈★★,Mini和Nano则为GPT-5的1/5和1/25◈★★。随着近期Grok4◈★★、Genie3的陆续发布◈★★,大模型迭代提速◈★★,且准确率提升◈★★、成本降低◈★★,预计将加速AI应用的爆发◈★★,商业化也有望提速◈★★,帮助互联网大厂形成AI投入到商业变现的闭环◈★★,我们建议持续关注算力基础设施与AI应用等环节◈★★。
算力基础设施产业链我们认为北美链和国产连都值得关注◈★★。前期◈★★,受到供应链影响◈★★,国内AI算力基础设施投资节奏受到一定影响◈★★,但我们认为国内的需求依然旺盛◈★★,只是短期节奏受到一些干扰◈★★,但后续随着算力缺口的出现及扩大◈★★,国内的部署节奏有望恢复◈★★、甚至提速◈★★,建议择机布局IDC◈★★、液冷◈★★、光模块◈★★、交换机等板块◈★★。
在人工智能行业不断取得进展◈★★,以及相关产业链上市公司业绩预告表现亮眼的共同驱动下◈★★,通信指数上涨7.56%◈★★,在申万31个一级行业中排名第1◈★★。扎克伯格在表示◈★★,Meta将投资数千亿美元建设几座大型数据中心◈★★,用于支持其人工智能的发展◈★★,目标是实现通用人工智能◈★★,其中首个数据中心预计将于明年投入使用◈★★。7月18日◈★★,OpenAI宣布将在ChatGPT中推出一款通用型AI智能体◈★★,该公司表示该智能体可以帮助用户完成各种基于计算机的任务◈★★。此外◈★★,根据英伟达官网消息显示◈★★,英伟达将恢复向中国销售H20◈★★,并宣布推出一款全新◈★★、完全合规的面向中国的GPU◈★★,美国政府已明确表示将批准相关许可88bifa (中国区)官方网站◈★★,预计不久后即可启动交付◈★★。
算力链公司发布业绩预告◈★★,实现快速增长◈★★,持续验证AI带动的算力行业景气度依然较高◈★★。当前位置◈★★,我们认为AI大模型的竞争与迭代仍在持续◈★★,意味着算力投资大概率依然维持较高强度◈★★,因此继续推荐算力板块◈★★:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的◈★★;二是有望享受外溢需求◈★★、取得客户或份额突破的公司◈★★;三是上游紧缺的环节◈★★;四是随着GB300的批量出货◈★★,建议重点关注 1.6T光模块及CPO产业链◈★★;五是随着H20供应恢复◈★★、NV将向中国推出全新GPU等◈★★,建议关注国产算力链◈★★。
我们认为随着大模型的不断迭代◈★★,产业将向通用人工智能方向发展◈★★,AI应用仍值得期待◈★★,叠加宇树IPO◈★★,建议关注AI端侧的芯片◈★★、模组等产业链◈★★。此外◈★★,我们仍继续推荐电信运营商◈★★、军工通信等板块◈★★。
7月10日◈★★,xAI正式发布Grok 4◈★★,在GBQA(博士级问题集)◈★★、AMC 25(美国数学邀请赛)◈★★、Live Coding Benchmark(编程能力测试)◈★★、HMMT(哈佛-MIT数学竞赛)◈★★、USAMO(美国数学奥林匹克)等测试中均表现出色◈★★。马斯克表示◈★★,“现在在学术问题上◈★★,Grok 4比博士水平在每个学科都要强◈★★,没有例外◈★★。”定价方面◈★★,Grok 4基础版本为30美金一个月◈★★;Grok 4Heavy为300美金/月◈★★。后续产品路线月将发布专门编程模型◈★★;9月发布多模态智能体◈★★;10月发布视频生成模型◈★★。
Grok4 在性能上的强势提升与模型版本的快速迭代◈★★,这背后离不开强大的算力支撑◈★★,xAI在美国田纳西州孟菲斯建立了超级计算中心“Colossus”◈★★,2024年7月启动时配备了10万块英伟达H100 GPU◈★★,到2025年2月◈★★,GPU数量已翻倍至20万块◈★★。Grok4用于RL的计算资源几乎与预训练时使用的相同◈★★。
当前位置◈★★,我们认为AI大模型的竞争与迭代仍在持续◈★★,意味着算力投资大概率依然维持较高强度◈★★,因此继续推荐算力板块◈★★:一是业绩持续高增长且估值仍处于历史较低水平的北美算力链核心标的◈★★;二是有望享受外溢需求◈★★、取得客户或份额突破的公司◈★★;三是上游紧缺的环节◈★★;四是随着GB300的批量出货◈★★,建议重点关注 1.6T光模块及 CPO 产业链◈★★。
近期◈★★,算力板块表现出色◈★★。虽然经历了年初deepseek出圈◈★★,以及关税政策调整带来的两波较大的股价调整◈★★,但是随着海外CSP厂商capex的乐观指引◈★★,大模型及各种Agent带来tokens爆发式增长◈★★,OpenAI和Anthropic等公司的ARR大幅提升◈★★,市场对于未来AI算力投资的信心不断增强◈★★。
小米AI眼镜发布◈★★,重量40g◈★★,续航达8.6小时◈★★,价格为国补后1699元起◈★★,同时推出单色/彩色电致变色的选配版本◈★★。小米AI眼镜作为其随身AI接口◈★★,支持口令◈★★、多模态◈★★、扫码支付◈★★、语音控制和会议纪要等多种功能◈★★,是未来重要的端侧AI产品之一◈★★。建议继续重视智能眼镜供应链◈★★,包括整机◈★★、代工◈★★、软件与算法环节相关标的◈★★。
工信部披露运营商今年1-5月电信业务收入◈★★,同比增长1.4%◈★★,1-3月同比增速为0.7%◈★★,1-4月同比增速为1%◈★★,意味着4月和5月电信业务收入增速持续提升◈★★,分别达到2.0%和2.7%◈★★。我们持续推荐运营商◈★★。
英伟达召开2025年度股东大会◈★★,机器人融合人工智能打造新万亿级市场空间◈★★。英伟达于美国当地时间6月25日召开股东大会◈★★,CEO黄仁勋宣布将机器人列为仅次于AI计算的公司第二大增长引擎◈★★,目标通过融合AI与机器人技术开辟“物理世界AI”新万亿级市场◈★★。为实现这一愿景◈★★,英伟达构建了全栈式技术壁垒◈★★:硬件层推出新一代机器人芯片 Thor SoC◈★★,兼容工业机械臂与自动驾驶车辆◈★★;软件层依托 Isaac Robotics平台整合GR00T人形机器人基础模型◈★★,支持多模态感知与物理仿真◈★★。无论自动驾驶还是更广阔的机器人应用◈★★,其训练软件都将依托于英伟达强大的数据中心芯片◈★★,端侧应用设备则采用其他专业芯片支持运行◈★★。展望未来◈★★,英伟达将由芯片供应商向“AI基础设施”平台商转型◈★★,搭建AI工厂进而成为AI产业的核心基础架构◈★★。当前机器人和汽车业务占英伟达整体收入比例约1%◈★★,但人工智能结合机器人◈★★、自动驾驶将发展成为万亿美元级别的增量市场空间◈★★。
全球Token消耗量呈现爆发式增长◈★★,免费AI服务的规模化普及成为核心引擎◈★★。谷歌将AI能力融合到搜索场景中◈★★,AI Overviews功能推动其2025年4月推理Token消耗量飙升至480万亿/月◈★★,较2024年同期的9.7万亿激增50倍◈★★。这一增长直接受益于其覆盖45亿用户的免费服务生态◈★★;中国市场的C端应用同样爆发◈★★,字节跳动豆包大模型日均Token调用量从2024年12月的4万亿跃升至2025年5月的16.4万亿◈★★,其中超60%消耗量来自抖音◈★★、今日头条的AIGC营销内容生成◈★★。与此同时◈★★,企业级Agent任务复杂度升级大幅推高单次消耗量◈★★:企业端单Agent解决供应链◈★★、财务等场景对于tokens消耗量达到十万数量级◈★★,针对复杂场景或多Agent协同则可能突破百万级别◈★★,较传统问答tokens消耗增长约2个数量级◈★★。当前海内外头部厂商持续发力算力基础设施建设◈★★,以满足激增的推理算力需求◈★★。
ASIC市场空间预期持续上调◈★★,助力各大云厂商自研AI芯片以满足激增算力需求◈★★。全球ASIC市场空间预期持续上调◈★★,核心驱动力源于云计算巨头为满足激增的AI算力需求而加速自研芯片部署◈★★。Marvell 在投资者交流会中提及其为微软Azure定制的ASIC芯片单token成本较GPU方案显著降低◈★★,同时解决了英伟达芯片供给缺口◈★★。Marvell为AWS◈★★、微软◈★★、谷歌◈★★、Meta等提供底层算力支持◈★★,得益于上述云厂商强劲的算力需求◈★★,Marvell预计2028年数据中心资本开支将超过一万亿美元◈★★,同时进一步上调数据中心市场规模2028年预期至940亿美元◈★★,较2024年4月的预期750亿美元上调26%◈★★,其中上调定制计算芯片(XPU和XPU配套芯片)市场规模指引37%◈★★。Marvell的竞争对手博通同样发力ASIC市场◈★★,博通CEO在业绩说明会上表示◈★★,2025财年第二季度博通人工智能收入超44亿美元◈★★,预计人工智能半导体收入将在第三季度增长至51亿美元◈★★,实现连续十个季度的增长◈★★,明年XPU部署将显著增加◈★★,超出公司此前预期◈★★。
6月20日◈★★,在2025华为开发者大会(HDC 2025)上◈★★,华为云正式发布盘古大模型5.5及新一代昇腾AI云服务◈★★,实现AI基础设施与大模型技术的协同突破◈★★。本次升级覆盖自然语言处理(NLP)◈★★、多模态◈★★、预测◈★★、科学计算及计算机视觉(CV)五大领域88bifa (中国区)官方网站◈★★,通过架构创新显著提升性能与能效◈★★,并深化工业◈★★、气象◈★★、能源等场景应用◈★★,加速产业智能化转型◈★★。
面对大模型训练与推理引发的算力需求指数级增长◈★★,传统计算架构已触及性能瓶颈◈★★。华为云此次发布的昇腾AI云服务◈★★,通过CloudMatrix384超节点架构实现基础层突破◈★★:该架构创新性地将384颗昇腾NPU与192颗鲲鹏CPU经由全对等互联的MatrixLink高速网络整合为高密度异构计算单元◈★★,形成具备超域并行能力的AI算力基座◈★★。关键性能指标实现代际跨越——单卡推理吞吐量提升至2300 Token/s◈★★,较传统架构相比提升近4倍◈★★,彻底释放大模型推理效能◈★★。
在架构设计上◈★★,超节点针对混合专家模型(MoE) 的稀疏计算特性进行深度优化◈★★:1)首创 “一卡一专家”并行范式 ◈★★,单节点即可承载384个专家模块的协同推理◈★★,显著降低通信开销◈★★;2)支持“算子级任务编排”◈★★,通过动态资源切片实现“一卡多任务”并发处理◈★★,使算力有效利用率(MFU)提升超50%◈★★,从根本上解决传统架构的算力闲置问题◈★★。
对于十万亿参数级别的训练场景◈★★,系统支持级联弹性扩展——通过432个超节点构建16万卡级算力集群88bifa (中国区)官方网站◈★★,并创新性地实现训推一体化调度◈★★:采用 “日推夜训”动态资源池 策略◈★★,依据负载峰谷智能调配算力◈★★,在保障日间高并发推理需求的同时◈★★,利用闲置资源进行夜间模型训练◈★★。
此次◈★★,盘古 5.5 在 NLP 领域主要有三大模型组成◈★★,即盘古 Ultra MoE◈★★、盘古 Pro MoE◈★★、盘古 Embedding◈★★;以及快慢思考合一的高效推理策略◈★★、智能体产品DeepDiver◈★★。
Ultra MoE(7180亿参数) 作为准万亿级深度思考模型◈★★,基于昇腾全栈软硬件协同优化◈★★,首创 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 与 TinyInit小初始化技术 ◈★★,在CloudMatrix384集群上完成10+T token数据的稳定训练◈★★。其创新性 EP Group Loss负载均衡机制◈★★,保障256个专家模块高效协同◈★★,结合 “MLA多层级注意力”“MTP混合精度训练”策略◈★★,在知识推理◈★★、数学计算等任务中达到国际前沿水平◈★★。
Pro MoE(72B A16B) 专为昇腾硬件定制◈★★,通过分组混合专家算法(MoGE) 解决跨芯片负载不均衡问题◈★★。该模型针对300I Duo推理芯片优化架构拓扑◈★★,每次仅激活160亿参数(16B)◈★★,在800I A2芯片实现 1529 Token/s 的极致吞吐效率◈★★,较同规模模型提升15%以上◈★★。SuperCLUE榜单验证其智能体任务能力比肩6710亿参数模型◈★★,成为商业落地最优解◈★★。
Embedding(7B) 轻量化模型突破规模限制◈★★,采用“渐进式SFT微调”与 “多维度强化学习 ”策略◈★★,模型在学科知识◈★★、编码◈★★、数学和对话能力方面均优于同期同规模模型◈★★,为边缘端部署提供高性价比解决方案◈★★。
同时◈★★,华为提出了自适应快慢思考合一的高效推理方案◈★★,构建难度感知的快慢思考数据并提出两阶段渐进训练策略◈★★,让盘古模型可以根据问题难易程度自适应地切换快慢思考◈★★。通过构建包含200万样本的难度感知数据集形成动态感知机制◈★★,基于问题复杂度分级标注◈★★,训练轻量级判别模块实现毫秒级难度判定◈★★,通过系统级训练框架实现模型内生决策能力◈★★,打破“人工规则切换”局限◈★★。
华为推出的DeepDiver智能体通过强化学习框架重构开放域信息获取路径◈★★,基于7B轻量模型实现千亿级复杂任务处理能力◈★★。该产品构建百万级合成交互数据集模拟真实搜索环境◈★★,采用渐进式奖励策略优化多跳推理能力◈★★,深度融合知识边界判定与结构化验证机制◈★★,突破传统引擎的关键信息遗漏瓶颈◈★★;技术实现上通过延时敏感型调度器协调128节点昇腾集群◈★★,结合主机-设备自适应权重迁移技术消除数据传输延迟◈★★,使单次任务可完成10跳深度推理链挖掘◈★★。目前已在投研智库◈★★、专利预警◈★★、医疗证据链分析等场景验证其颠覆性价值◈★★,推动AI智能体从工具执行向战略决策角色演进◈★★。
盘古预测模型采用业界首创的triplet transformer统一预训练架构◈★★,将不同行业的数据◈★★,包括工艺参数的表格数据◈★★,设备运行日志的时间序列数据◈★★,产品检测的图片数据进行统一的三元组编码◈★★,并在同一框架内高效处理和预训练◈★★,极大地提升预测大模型的精度◈★★,并大幅提升跨行业◈★★、跨场景的泛化性◈★★。助力宝武钢铁高炉出铁温度合格率突破90%777sao◈★★,云南铝业电解铝工艺年省电2600万度◈★★。
CV视觉模型以300亿MoE架构构建跨模态工业样本库◈★★,全面支持图像◈★★、红外◈★★、激光点云◈★★、光谱◈★★、雷达等多维度◈★★、泛视觉的感知◈★★、分析与决策◈★★。另外◈★★,盘古CV大模型通过跨维度生成模型◈★★,构建油气◈★★、交通◈★★、煤矿等工业场景稀缺的泛视觉故障样本库◈★★,极大地提升了业务场景的可识别种类与精度◈★★。推动中石油亚毫米级缺陷识别效率提升40%◈★★。
科学计算模型在气象领域支撑深圳“智霁”实现区域集合预报◈★★,重庆“天资·12h”模型提升强降水预警精度◈★★,深圳能源风光发电预测优化清洁能源消纳效率◈★★。
盘古大模型持续深耕行业◈★★,已在30多个行业◈★★、500多个场景中落地◈★★,在政务◈★★、金融◈★★、制造◈★★、医疗◈★★、煤矿◈★★、钢铁◈★★、铁路◈★★、自动驾驶◈★★、气象等领域发挥巨大价值◈★★,实现产业智能化转型◈★★。
Deepseek发布深度推理能力模型◈★★。R1-Zero采用纯粹的强化学习训练◈★★,证明了大语言模型仅通过强化学习也可以有强大的推理能力◈★★,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩◈★★。DeepSeek R1训练和推理算力需求较低◈★★,主要原因是DeepSeek R1实现算法◈★★、框架和硬件的优化协同◈★★。过去的预训练侧的scaling law正逐步迈向更广阔的空间◈★★,在深度推理的阶段◈★★,模型的未来算力需求依然会呈现爆发式上涨◈★★,充足的算力需求对于人工智能模型的性能进步依然至关重要◈★★。
Deepseek发布深度推理能力模型◈★★,性能和成本方面表现出色◈★★。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1◈★★。R1-Zero采用纯粹的强化学习训练◈★★,模型效果逼近OpenAI o1模型◈★★,证明了大语言模型仅通过RL◈★★,无SFT◈★★,大模型也可以有强大的推理能力◈★★。但是R1-Zero也存在可读性差和语言混合的问题◈★★,在进一步的优化过程中◈★★,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型◈★★,主要包括冷启动阶段◈★★、面向推理的强化学习◈★★、拒绝采样与监督微调◈★★、面向全场景的强化学习四个阶段◈★★,R1在推理任务上表现出色◈★★,特别是在AIME 2024◈★★、MATH-500和Codeforces等任务上◈★★,取得了与OpenAI-o1-1217相媲美甚至超越的成绩◈★★。
国产模型迈向深度推理◈★★,策略创新百花齐放◈★★。在Deepseek R1-Zero模型中◈★★,采用的强化学习策略是GRPO策略◈★★,取消价值网络◈★★,采用分组相对奖励◈★★,专门优化数学推理任务◈★★,减少计算资源消耗◈★★;KIMI 1.5采用Partial rollout的强化学习策略◈★★,同时采用模型合并◈★★、最短拒绝采样◈★★、DPO 和long2short RL策略实现短链推理◈★★;Qwen2.5扩大监督微调数据范围以及两阶段强化学习◈★★,增强模型处理能力◈★★。
DeepSeek R1通过较少算力实现高性能模型表现◈★★,主要原因是DeepSeek R1实现算法◈★★、框架和硬件的优化协同◈★★。DeepSeek R1在诸多维度上进行了大量优化◈★★,算法层面引入专家混合模型◈★★、多头隐式注意力◈★★、多token预测◈★★,框架层面实现FP8混合精度训练◈★★,硬件层面采用优化的流水线并行策略◈★★,同时高效配置专家分发与跨节点通信◈★★,实现最优效率配置◈★★。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段◈★★,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧◈★★,通过大量协同优化◈★★,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现◈★★,算力行业的长期增长逻辑并未受到挑战◈★★。过去的预训练侧的scaling law正逐步迈向更广阔的空间◈★★,在深度推理的阶段◈★★,模型的未来算力需求依然会呈现爆发式上涨◈★★,充足的算力需求对于人工智能模型的性能进步依然至关重要◈★★。
北美四大云厂商一季度资本开支持续高增◈★★,总计773亿美元◈★★,同比增长62%◈★★。其中◈★★,2025Q1亚马逊的capex为250亿美元◈★★,同比增长68%◈★★,微软的capex为214亿美元◈★★,同比增长53%◈★★,谷歌的capex为172亿美元◈★★,同比增长43%◈★★,Meta的capex为137亿美元◈★★,同比增长104%◈★★。四家云厂商对于2025年资本开支的指引保持乐观◈★★,谷歌◈★★、亚马逊◈★★、微软表示年初资本开支指引保持不变◈★★,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元◈★★。市场此前在DeepSeek出圈后认为算力可能加速通缩◈★★,资本开支可能会趋缓◈★★,但从北美云厂商的最新指引来看◈★★,投资依然强劲◈★★,反映出北美算力行业景气度依旧很高◈★★。
国内CSP厂商季度间资本开支略有波动◈★★,但保持较高投资强度◈★★。2025Q1◈★★,阿里的资本开支为239.93亿元(Purchase of property and equipment)◈★★,同比增长136%◈★★。相较于此前年报时的指引◈★★,2025Q1资本开支或低于投资者预期◈★★,预计与GPU芯片采购发货节奏有关◈★★;腾讯的资本开支为275亿元◈★★,同比增长91%◈★★,占营收比为15%◈★★,落在此前“low teens”指引区间◈★★。当前仍处于AI基础设施的投资期◈★★,尽管季度间资本开支或许有波动◈★★,但整体仍保持较高的投资强度◈★★,反映出国内算力投资需求也保持较高景气度◈★★。
随着大模型应用的普及和用户互动频率的增加◈★★,LLM的Token使用量正在以惊人的速度增长◈★★。在近期举行的2025年Google I/O开发者大会上◈★★,谷歌表示目前系统每月处理的token数量激增◈★★,从去年的9.7万亿增加到现在的480万亿◈★★,增长将近50倍◈★★。目前◈★★,Gemini的App上每月有4 亿多活跃用户◈★★。近期在字节跳动旗下火山引擎举办 Force 原动力大会上◈★★,公司宣布◈★★,截至2025年5月底◈★★,豆包大模型日均tokens使用量超过16.4万亿◈★★,较去年5月刚发布时增长137倍◈★★。Agent在解决复杂问题的过程中◈★★,会进行多轮对话或内部思考◈★★,每一轮的对话中都会产生大量的token◈★★。随着Agent在各种应用场景的快速普及◈★★,token数量还有望快速增长◈★★。
但市场对于当下AI发展的短期情况存在一定的担忧◈★★。自从2023年OpenAI的ChatGPT引爆了算力需求之后◈★★,CSP厂商的capex高速增长已有3年◈★★,但是AI相关的爆款应用迟迟没有出现◈★★,在无法商业闭环情况下◈★★,实际上也存在资本开支放缓可能◈★★。但是从长期发展的维度看◈★★,AI仍然会是整个科技行业最大的发展方向之一◈★★。总体来看◈★★,我们认为应先抱以乐观态度◈★★,但紧盯微观层面的订单变化◈★★,及时调整◈★★。因此◈★★,从投资的角度来看◈★★,我们认为应该重点锚定行业景气度变化和估值水平进行投资◈★★,海外产业链更看重景气度变化◈★★,估值水平在一定条件下可以提供安全边际◈★★,而国内算力产业链短期内则更需要重视业绩的兑现情况◈★★。
从2023年OpenAI的ChatGPT横空出世以来◈★★,人工智能带动的需求持续高速增长◈★★。CSP厂商的capex保持快速增长势头◈★★,GPU◈★★、ASIC◈★★、HBM◈★★、交换机◈★★、光模块◈★★、铜缆等需求旺盛◈★★。
北美四大云厂商一季度资本开支持续高增◈★★,总计773亿美元◈★★,同比增长62%◈★★。其中◈★★,2025Q1亚马逊的capex为250亿美元◈★★,同比增长68%◈★★,微软的capex为214亿美元◈★★,同比增长53%◈★★,谷歌的capex为172亿美元◈★★,同比增长43%◈★★,Meta的capex为137亿美元◈★★,同比增长104%◈★★。四家云厂商对于2025年资本开支的指引保持乐观◈★★,谷歌◈★★、亚马逊◈★★、微软表示年初资本开支指引保持不变◈★★,Meta将全年资本开支由上季度指引的600亿-650亿美元上调至640亿-720亿美元◈★★。高带宽◈★★、高质量以及高可靠性的互联网络能够确保算力集群处于高效率的运行状态◈★★。人工智能数据中心建设景气度高◈★★,给光模块产业链带来广阔的空间◈★★,国内主要光模块公司的业绩持续增长◈★★。
展望明年◈★★,预计800G光模块需求仍然强劲◈★★,1.6T光模块有望快速放量◈★★。在AI数据中心中◈★★,越来越多的客户倾向于选择更大带宽的网络硬件◈★★。带宽越大◈★★,单位bit传输的成本更低◈★★、功耗更低及尺寸更小◈★★。800G光模块的高增速已经能够反映出AI对于带宽迫切的需求◈★★,其在2022年底开始小批量◈★★,2023年和2024年的出货量都大幅增长◈★★。而AI对于带宽的需求是没有极限的◈★★,得益于网络较高的性价比◈★★,1.6T光模块有望加速应用◈★★。NVIDIA正在通过ConnectX-8 SuperNIC 升级网络平台架构◈★★,ConnectX-8是业内首款集成PCIe 6.0交换机和高速网络的网卡◈★★,专为现代 AI 基础架构设计◈★★,可提供更高的吞吐量◈★★,同时简化系统设计◈★★,并提高能效和成本效益◈★★。
CPO◈★★,Co-packaged Optics◈★★,即共封装光学技术◈★★,是将光芯片/器件与电芯片/器件合封在一起的封装技术◈★★。CPO的封装一般指两方面◈★★:一是光引擎(OE)中PIC和EIC的封装◈★★,二是光引擎和ASIC/XPU/GPU的系统级封装◈★★。共封装光学技术的优点包括降低功耗◈★★、降低成本和减小尺寸◈★★。降低功耗◈★★:信号传输的电路距离大大缩短◈★★,电信号损耗降低◈★★,简化后的SerDes去掉CDR◈★★、DFE◈★★、FFE和CTLE之后功耗降低◈★★,可节省30%+的功耗◈★★;降低成本◈★★:封装工艺成本更低◈★★,高集成度的光引擎成本更低◈★★,同时省去部分电学芯片成本◈★★,可降低25%+的成本◈★★;减小尺寸◈★★:借助硅光技术和CMOS工艺◈★★,共封装显著减小光电引擎各自独立封装方式的尺寸◈★★,同时实现更高密度的I/O集成◈★★。
Scale-up是指通过增加单个节点的资源来提升整个集群的算力◈★★。常见的单个节点是八卡服务器◈★★,随着大模型参数量大幅提升◈★★,英伟达先后推出了GH200 NVL32和GB200 NVL72等机架类产品◈★★,得益于高速的NVLink互连带宽◈★★,整个机架可类比为“One Giant GPU”◈★★,未来scale-up domain有望提升到千卡及万卡级别◈★★。2023年◈★★,英伟达宣布生成式AI引擎NVIDIA DGX GH200现已投入量产◈★★。GH200通过NVLink 4.0的900GB/s超大网络带宽能力来提升算力◈★★,服务器内部可能采用铜线方案◈★★,但服务器之间可能采用光纤连接◈★★。相比较传统的IB/Ethernet的网络◈★★,GH200采用的NVLink-Network网络部分的成本占比大幅增长◈★★,但是因为网络在数据中心中的成本占比较低◈★★,因此通过提升网络性能来提升算力性价比很高◈★★。
CPO技术是系统性工程◈★★,涉及到材料◈★★、器件◈★★、EDA◈★★、模块◈★★、设备等◈★★,对设计◈★★、封装和测试的要求非常高◈★★,因此目前产业中的现状主要是科技巨头在主导◈★★,产业链中的供应商配合◈★★。CPO/OIO中主要组成部分是CPO光引擎◈★★,采用的主要是硅光技术◈★★,因此两者的供应链也高度重合◈★★。参与到CPO/OIO研发的厂商主要是FAU◈★★、MPO◈★★、CW laser◈★★、光引擎◈★★、封装◈★★、流片厂◈★★、PCB厂商等◈★★,我们认为在各个细分领域具备较强优势的厂商◈★★,同样在CPO/OIO领域有望延续该领先优势◈★★。光引擎是核心产品◈★★,虽然目前主要是英伟达和博通等公司在主导◈★★,但是考虑到光引擎与光模块的设计◈★★、制造和测试环节高度相似◈★★,我们认为光模块公司仍然具备较大的优势◈★★。FAU◈★★、MPO和Fiber Shuffle等光纤连接器产品◈★★,在CPO/OIO产品上的价值量有望显著提升◈★★。CW DFB laser是重要的光源产品◈★★,在FR等波分复用的方案中◈★★,边缘波长的激光器难度较大◈★★,价值量也较高◈★★。
我们认为◈★★,算力板块目前的景气度依然较高◈★★,虽然市场对未来的预期存在分歧◈★★,但从Token的增长情况来看◈★★,中长期展望依然乐观就估值而言◈★★,我们认为既然市场对未来有分歧◈★★,那就对未来的盈利预测也会有分歧◈★★,所以未来的估值一定程度上就不具有很强的参考意义◈★★。对此◈★★,我们认为可以参考历史◈★★。复盘2019-2020年◈★★,5G◈★★、云计算叠加疫情带来的在线经济需求◈★★,也让光模块板块大涨◈★★,之后进入了约2年半的市场震荡寻底阶段◈★★。
2025年4月◈★★,华为在云生态大会上推出CloudMatrix 384超节点◈★★,并宣布已在芜湖数据中心规模上线◈★★。据介绍◈★★,华为昇腾超节点凭借高速总线互联技术实现重大突破◈★★,把总线从服务器内部◈★★,扩展到整机柜◈★★、甚至跨机柜◈★★。在超节点范围内◈★★,用高速总线互联替代传统以太网◈★★。根据SemiAnalysis的对比分析◈★★,华为昇腾910C的单卡算力约为GB200的0.3X◈★★、HBM容量约为GB200的0.7X◈★★,但是在组成集群后◈★★,CloudMatrix 384算力约为NVL72的1.7X◈★★、HBM容量约为NVL72的3.6X◈★★。不足之处则是CloudMatrix 384能耗更高◈★★,系统总功耗是NVL72的3.9X◈★★,每FLOP功耗是NVL72的2.3X◈★★。正如任正非近期接受人民日报时所说◈★★,中国芯片产业可通过“叠加与集群”技术路径实现突围◈★★,在计算结果上与全球最先进水平相当◈★★。
英伟达NVLink与华为HCCS◈★★,两大厂商均希望打造自己的高速互联生态◈★★。自2014年开始◈★★,英伟达在其GPU中引入了NVLink互联技术◈★★。NVLink是由英伟达开发的一种高带宽◈★★、低延迟的点对点数据传输通道◈★★。它的主要用途是连接GPU◈★★,或者GPU与CPU之间的通信◈★★。经历了近十年的迭代◈★★,从NVLink1.0到5.0◈★★,GPU上的NVLink链路数从4条变为18条◈★★,随着serdes速率增长以及调制方式从NRZ升级为PAM4◈★★,单通道带宽从5GB/s升级至50GB/s◈★★,GPU之间通信的双向带宽达到了1800GB/s◈★★。华为HCCS对标英伟达的NVLink◈★★,能够给内核◈★★、设备◈★★、集群提供系统内存的一致访问◈★★,HCCS采用对等拓扑◈★★,单链路的最大带宽是56GB/s◈★★,昇腾910B中的HCCS采用点对点拓扑◈★★,单链路的最大带宽是56GB/s◈★★,聚合带宽392GB/S◈★★。高速的互联带宽对于模型的分布式训练至关重要◈★★,也成为英伟达与华为的核心竞争力之一◈★★。
英伟达和华为作为同时拥有GPU与交换芯片设计能力的公司◈★★,既懂网络也懂计算◈★★,打造一套属于自己的互联生态顺理成章◈★★。但对于其它GPU与网络设备厂商则并非如此◈★★,为了与NVlink竞争◈★★,UEC◈★★、UALink等组织相继成立◈★★,旨在打造一个开放的高性能计算网络生态◈★★。对于阿里◈★★、腾讯这样的互联网厂商◈★★,他们希望自己定义计算集群架构◈★★,而不是成套的购买设备厂商的训练集群◈★★,例如腾讯发布自己的星脉网络架构◈★★,阿里也着手自研交换机◈★★,因此开放的互联生态同样需要重视◈★★。
UALink1.0规范发布◈★★:支持连接1024个加速器◈★★,每通道200GT/s带宽◈★★。UALink(UltraAcceleratorLink)由AMD◈★★、AWS◈★★、AsteraLabs◈★★、思科◈★★、谷歌◈★★、HPE◈★★、英特尔◈★★、Meta和微软9家企业发起成立◈★★,旨在为AIPod和集群中加速器与交换机之间的纵向扩展通信定义一种高速◈★★、低延迟的互联规范◈★★,挑战英伟达NVLink等互联在该场景的领导地位◈★★。2025年4月◈★★,UALink1.0发布◈★★,支持每通道200GT/s的最大双向数据速率◈★★,信号传输速率为212.5GT/s◈★★,以适应前向纠错和编码开销◈★★。UALink可配置为x1◈★★、x2或x4◈★★,四通道链路在发送和接收方向上均可实现高达800GT/s的速度◈★★。从标准发布到实际应用◈★★,还需要协调众多厂商配合◈★★,因此开放的互联协议能够真正在组网中应用预计还需要一至两年◈★★。我们认为◈★★,对于网络与交换环节建议重点关注交换芯片◈★★、网卡等公司◈★★。
GB200服务器进入规模化量产阶段◈★★,Blackwell将接替Hopper成为出货主力◈★★。在GTC 2024大会上◈★★,英伟达正式发布了新一代Blackwell架构AI芯片◈★★,并推出了基于该架构的新型机架式AI服务器参考设计GB200◈★★。由于散热挑战与液冷系统泄漏等问题◈★★,GB200系统在2024年量产推进并不顺利◈★★,整体进度滞后于预期◈★★。随着英伟达与供应链合作逐步优化设计◈★★,并解决关键技术难题◈★★,24年底Blackwell平台开始进入爬坡阶段◈★★,开启对Hopper平台的替代◈★★。英伟达FY26Q1(2025年2月-4月)数据中心业务中近70%的收入已由Blackwell平台贡献◈★★。鸿海◈★★、广达等核心ODM供应商也普遍预计◈★★,GB200将在2025Q2加速放量◈★★,微软◈★★、Meta等多家云服务厂商也陆续部署新一代系统88bifa (中国区)官方网站◈★★。
升级方案GB300有望于2025年下半年开启量产◈★★。英伟达在GTC 2025大会上披露◈★★,预计GB300将于2025年下半年量产上市◈★★。硬件方面◈★★,GB300采用12-Hi堆叠的HBM3e内存结构◈★★,每颗GPU配备288 GB显存◈★★,较GB200的192 GB提升50%◈★★。系统I/O也全面升级◈★★,整机网络带宽提升至1.6 Tbps◈★★,以满足更高并发推理的通信需求◈★★。在性能表现上◈★★,GB300 NVL72在FP4精度下的推理算力相较GB200 NVL72提升约1.5倍◈★★。为确保量产进度◈★★,英伟达此次在设计上回归稳定的Bianca板卡方案◈★★,并优化了液冷系统与供电模块◈★★。GB300将成为继GB200之后◈★★,又一轮AI服务器放量的关键驱动◈★★。
自研ASIC芯片不仅能够降低功耗◈★★,还能帮助CSP掌握AI基础设施的成本与供应链◈★★,避免过度依赖英伟达◈★★,因此自研ASIC正成为CSP的竞争关键◈★★。谷歌曾独占ASIC AI芯片市场◈★★,目前AWS◈★★、Meta◈★★、微软等企业也开始积极投入ASIC AI芯片开发◈★★。AWS的ASIC AI芯片Trainium 2在2024Q4开始量产◈★★,搭载该芯片的服务器则在2025Q1开始规模化出货◈★★,纬颖作为AWS ASIC服务器的核心供应商◈★★,营收大幅受益◈★★。AWS下一代Trainium 3晶片则预计在2025年底之前量产◈★★。
制程迭代是芯片算力提升的关键因素◈★★,AI算力需求的爆发催生了对先进制程的强需求◈★★。AI大模型发展对芯片算力提出更高要求◈★★,未来更成熟的AGI模型所需算力是现在GPT-4所需算力的1万倍◈★★。而解决高算力需求的一种方案是采用更为先进制程的芯片◈★★,因为芯片制程越先进◈★★,功耗越低◈★★、计算速度越快◈★★。如2nm芯片功耗约为16nm芯片的10%◈★★,而性能约为16nm芯片的2倍以上◈★★。台积电估计其即将推出的N2P节点的功耗可能比N3E节点低30-40%◈★★。
服务器需求将超过智能手机成为先进制程最主要的驱动力◈★★。历史上◈★★,智能手机的迭代更新推动了芯片制程的不断演进◈★★,但随着AI应用的计算需求上升◈★★,服务器成为主要的算力中心◈★★,且对高算力的追求使得其对先进制程呈现出越来越高的需求◈★★,AI芯片功耗较高◈★★,且需要更小的尺寸◈★★,因此AI芯片对先进制程的迫切需求将推动服务器需求成为先进制程最大的驱动力◈★★。Sumco估计◈★★,在AI服务器出货量强劲增长的推动下◈★★,服务器对先进制程晶圆的需求量最快将在2024年超过智能手机◈★★。
2025年是2nm量产交付元年◈★★,台积电已获得多家客户订单◈★★。台积电◈★★、三星◈★★、Intel均有望在2025年量产2nm制程◈★★,但目前Intel和三星主要用于生产自有产品◈★★,并未获得第三方客户的量产订单◈★★。Intel的18A将生产Panther Lake (PC CPU)和Clearwater Forest (服务器CPU)◈★★,三星的SF2可能将获得自研处理器Exynos 2600的订单◈★★。台积电的2nm已获得多家客户订单◈★★,包括AMD的Venice(服务器CPU)◈★★,苹果的A20/A20 Pro和M6系列◈★★,高通第三代8 Elite◈★★。此外◈★★,AWS◈★★、谷歌◈★★、微软未来的ASIC AI芯片在2nm节点上都大概率选择台积电◈★★。
先进制程面临物理约束瓶颈◈★★,先进封装成为提高芯片性能的重要解决方案◈★★。AI大发展使得算力需求爆发式增长◈★★,然而◈★★,随着半导体工艺尺寸进一步缩小◈★★,集成电路制造面临的挑战日益增大◈★★,摩尔定律日趋放缓◈★★,单位晶体管的成本不降反升◈★★,应用先进制程的芯片研发费用也大幅增长◈★★。先进封装通过异构集成◈★★,将多个芯粒(Chiplets)高密度连接在一起◈★★,整体性能提升不再依赖单一芯片支持◈★★,且大幅提升良率◈★★,降低成本◈★★,成为提供系统级性能提升的新路径◈★★。
CoWoS为HPC和AI计算领域广泛使用的先进封装技术◈★★。CoWoS是台积电推出的 2.5D封装技术◈★★,本质上是将多个芯片(如逻辑芯片+HBM)放置在一块硅中介层(interposer)上◈★★,再封装在基板上◈★★,2012年首先应用于Xilinx的FPGA上◈★★。此后◈★★,英伟达◈★★、AMD◈★★、谷歌等厂商的AI芯片均采用了CoWoS◈★★,例如A100◈★★、H100◈★★。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术◈★★,绝大多数使用HBM的高性能芯片◈★★,包括大部分创企的AI训练芯片都应用CoWoS技术◈★★。
AI持续高景气带动CoWoS需求不断提升◈★★。2023年一季度以来◈★★,AI服务器的需求不断增长◈★★,使台积电CoWoS封装产能紧缺◈★★。台积电一方面将制程分段委外◈★★,另一方面大幅扩产CoWoS产能88bifa (中国区)官方网站◈★★。
HBM 3D堆叠提升内存性能◈★★,AI芯片广泛采用◈★★。随着数据的爆炸式增长◈★★,内存墙对于计算速度的影响愈发显现◈★★。为了减小内存墙的影响◈★★,提升内存带宽一直是存储芯片聚焦的关键问题◈★★。如同闪存从2D NAND向3D NAND发展一样◈★★,DRAM也正在从2D向3D技术发展◈★★,HBM为主要代表产品◈★★。与传统DRAM不同◈★★,HBM是3D结构◈★★,它使用TSV技术将数个DRAM裸片堆叠起来◈★★,形成立方体结构◈★★,与传统内存相比◈★★,HBM的存储密度更大◈★★、带宽更高◈★★,基本成为数据中心AI芯片的标配◈★★。
预计2028年全球先进封装市场规模增至786亿美元◈★★,2022-2028年CAGR达到10.0%◈★★。根据Yole数据◈★★,2022年全球封装市场中◈★★,先进封装占比已达到47%◈★★。预计到2028年◈★★,先进封装市场占比将增至58%◈★★,规模约为786亿美元◈★★,2022年-2028年CAGR约为10.0%◈★★,明显高于传统封装市场的2.1%和市场整体的6.2%◈★★。
晶圆代工龙头台积电打造先进封装工艺标杆◈★★,传统封测厂商亦纷纷加快转型步伐◈★★。台积电在先进封装上已取得了可观的收入体量◈★★,技术布局也进入关键节点◈★★,未来投入规模将持续加码◈★★。在OSAT厂商中◈★★,日月光VIPack先进封装平台包含六大核心技术◈★★,安靠推出FCMCM(倒装多晶片模组)◈★★、2.5D(TSV)等五大先进封装解决方案◈★★。国内长电先进聚焦bumping◈★★,Fan-out CSP晶圆级等先进封装◈★★,通富微电在2.5D/3D先进封装保持国内领先◈★★,深科技专注存储封测领域◈★★,并聚焦倒装工艺(Flip-chip)◈★★、POPt堆叠封装技术的研发◈★★。
全球HBM(高带宽存储器)技术呈现“海外领跑◈★★、国内加速追赶”的双轨格局◈★★。海外市场由SK海力士◈★★、三星◈★★、美光三大巨头垄断95%以上份额◈★★:SK海力士凭借HBM3/3E量产优势稳居首位(市占率52.5%)◈★★,其12层堆叠HBM4测试良率已突破70%◈★★,计划2025年量产◈★★;三星正加速优化HBM3E良率并推进HBM4研发◈★★,2024年通过AMD MI300系列验证后逐步放量◈★★;美光则聚焦HBM3e量产◈★★,但产能扩张略有滞后◈★★。国内HBM产业受地缘政策催化进入提速阶段◈★★。
从HBM的生产工艺来看◈★★,DRAM颗粒为定制的DRAM颗粒◈★★,工艺难点在于封测◈★★。TSV◈★★、大规模回流模塑底部填充(MR-MUF)◈★★、自对准◈★★、混合键合等工艺很大程度上影响HBM的性能和良率◈★★。
(1)TSV◈★★:不采用传统的布线方法来连接芯片与芯片◈★★,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片◈★★。制作带有TSV的晶圆后◈★★,通过封装在其顶部和底部形成微凸块(Micro Bumping)◈★★,然后连接这些凸块◈★★。由于TSV允许凸块垂直连接◈★★,因此可以实现多芯片堆叠◈★★。最初◈★★,使用TSV接合的堆栈有4层◈★★,后来增加到8层◈★★。最近◈★★,一项技术使得堆叠12层成为可能◈★★,SK海力士于2023年4月开发了其12层HBM3◈★★。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF)◈★★,但SK海力士使用MR-MUF工艺◈★★,可以减少堆叠压力并实现自对准◈★★。这些特性使SK海力士能够开发出世界上第一个12层HBM3◈★★。
(2)MR-MUF◈★★:将半导体芯片堆叠起来◈★★,并将液体保护材料注入芯片之间的空间◈★★,然后硬化以保护芯片和周围电路的工艺◈★★。与在每个芯片堆叠后应用薄膜型材料相比◈★★,MR-MUF是一种更高效的工艺◈★★,并提供有效的散热◈★★。目前SK海力士主要使用MR-MUF工艺生产HBM2e/3/3e◈★★,使得其领先于三星电子和美光◈★★,后者主要采用TC-NCF工艺◈★★。MR-MUF工艺需要使用液态环氧树脂(EMC)◈★★,目前全球仅日本namics独供◈★★。除EMC外◈★★,HBM封装还需要底部填充胶用于FC工艺◈★★,采用PSPI作为硅中介层中RDL的再钝化层◈★★,还需要IC载板◈★★、DAF◈★★、Solder ball等材料◈★★。
(3)自对准◈★★:在 MR-MUF工艺期间通过大规模回流将芯片重新定位到正确的位置◈★★。在此过程中◈★★,热量被施加到芯片上◈★★,导致相关凸块在正确的位置熔化并硬化◈★★。
(4)混合键合◈★★:C2W混合键合具有多种优势◈★★,①允许无焊料键合◈★★,减少键合层的厚度◈★★、缩短电气路径并降低电阻◈★★。因此◈★★,小芯片可以高速运行◈★★,就像单个芯片一样◈★★。②通过直接将铜与铜接合◈★★,可以显着减小凸块上的间距◈★★。目前◈★★,使用焊料时很难实现10 um或更小的凸块间距◈★★。然而◈★★,铜对铜直接键合可以将间距减小到小于1um◈★★,从而提高芯片设计的灵活性◈★★。③先进的散热功能◈★★。④上述的薄粘合层和细间距影响了封装的形状因数◈★★,可以大大减小封装尺寸◈★★。目前混合键合主要用于单层键合或两个芯片面对面堆叠777sao◈★★,SK海力士2022年用混合键合完成了8层HBM2e的堆叠◈★★,正在开发用于更高密度◈★★、高堆叠HBM的混合键合◈★★。
需求紧俏◈★★,HBM持续挤压DRAM产能◈★★。从需求端看◈★★,云计算厂商将更多资本开支投入AI基础设施◈★★,2024年北美CSP的资本开支增速在55%◈★★,主要来自AI推动◈★★,传统服务器需求基本持平◈★★,25Q1同比增长64%◈★★,预计2025年CSP资本开支维持大幅增长◈★★。算力需求的快速增长◈★★,算力卡的数量和配置快速升级◈★★,最终带来的是算力芯片和HBM需求的快速增长◈★★。结合海外存储厂商和咨询机构的预测◈★★, 2024年HBM市场规模达到160亿美金◈★★,同比增长300%◈★★,预计2025年达到320亿美金◈★★,同比增长100%◈★★。从供给端看◈★★,HBM供应仍然紧缺◈★★,在传统DRAM库存波动的情况下◈★★,HBM由于AI服务器的强劲需求◈★★,挤占DRAM产能的现象还在持续◈★★。
HBM快速迭代◈★★,HBM4即将进入量产◈★★。结构上◈★★,2025年HBM3e将占据主导◈★★,根据SK海力士◈★★,2024年其HBM3e收入将占HBM收入一半以上◈★★,2025年12层HBM3e供给量将超过8层产品◈★★,12层HBM4计划于25H2发货◈★★。(1)HBM3e◈★★:三大原厂相继推出12Hi产品◈★★,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上◈★★。(2)HBM4◈★★:三星◈★★、海力士计划24Q4开始HBM4的流片◈★★,预计2026年用在英伟达下一代的Rubin芯片上◈★★。
推理时代即将到来◈★★,推理将成为AI算力需求的新动力◈★★。英伟达首席执行官黄仁勋在2025年GTC的主题演讲中提到◈★★,随着AI行业在模型训练上的需求放缓◈★★,叠加DeepSeek在模型推理上所作的创新◈★★,AI推理时代即将到来◈★★。相较于传统的生成式AI主要以语言大模型与聊天机器人的形式呈现◈★★、聚焦生成文本和图像内容等◈★★,AI Agent能理解任务◈★★、进行复杂推理◈★★、制定计划并自主执行多步骤操作◈★★,由于AI Agent解决复杂问题◈★★、分解任务每一步的逻辑思考过程都需要用到模型推理◈★★,因此推理将成为AI新阶段的核心动力◈★★。
低成本是AI推理爆发的必要条件◈★★,北美CSP厂商均加速研发ASIC的步伐◈★★。大模型推理时代相较于移动互联网时代◈★★,底层逻辑发生了巨大变化◈★★。推理系统的成本几乎和客户使用量成线性关系◈★★,因此边际成本很高◈★★,且成本绝大部分是推理的算力消耗◈★★。因此◈★★,在大模型时代◈★★,能将推理成本降到极致的厂商有望获得最终的胜利◈★★。目前北美四大CSP厂商◈★★,除了继续采用英伟达GPU做模型训练之外◈★★,均在加速开发自家的ASIC产品◈★★,一方面因英伟达的GPU价格昂贵◈★★,硬件投入成本过高◈★★,另一方面◈★★,自研ASIC可针对特定需求进行优化◈★★,也能针对特定的应用进行设计◈★★,因此对于能耗或电力管理的控制将更加精准◈★★,此外◈★★,从供应链安全角度◈★★,也可以避免算力资源都来自英伟达◈★★、AMD等GPU厂商的风险◈★★。在同等预算下◈★★,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务◈★★,且性价比提高了30%~40%◈★★。2025年底计划推出的Trainium3◈★★,其计算性能更是提高了2倍◈★★,能效有望提高40%◈★★。谷歌的TPU v5芯片在Llama-3推理场景中◈★★,单位算力成本较H100降低了70%◈★★。根据IDC数据◈★★,微软Azure自研ASIC后◈★★,硬件采购成本占比从75%降至58%◈★★,摆脱长期被动的议价困境◈★★。
在Google Cloud Next 25大会上◈★★,谷歌又推出了第七代张量处理单元(TPU v7)Ironwood◈★★,它是谷歌迄今为止性能最高◈★★、可扩展性最强的定制ASIC芯片◈★★,也是首款专为推理而设计的加速器◈★★。Ironwood的每瓦性能是谷歌去年发布的第六代TPU Trillium的两倍◈★★,HBM容量及双向带宽均大幅提升◈★★。谷歌ASIC服务器计算板上有四个Ironwood TPU◈★★,这个与之前TPU v5计算板架构一样◈★★。
博通和Marvell均看好ASIC市场需求◈★★。博通和Marvell是ASIC定制领域的主要玩家◈★★,二者在AI定制芯片中占据了超70%的市场份额◈★★。博通定制的ASIC芯片广泛应用于数据中心◈★★、云计算◈★★、高性能计算(HPC)◈★★、5G无线基础设施等领域◈★★,根据博通最新财报◈★★,2025Q1公司AI芯片收入占比50%◈★★,同比增长77%88bifa (中国区)官方网站◈★★,其中ASIC相关收入占比60%◈★★。博通认为XPU的需求会持续上涨◈★★,公司预计2025年下半年ASIC收入占比会持续上升◈★★,主要是因为推理模型需求增长使得AI芯片业务增速加快◈★★。Marvell的ASIC业务也成为公司强劲增长的核心动力之一◈★★。2024年12月初◈★★,Marvell与AWS达成了一项为期五年的战略合作协议◈★★,包括帮助亚马逊设计自有AI芯片◈★★。伴随AWS芯片的量产◈★★,Marvell在2025Q1实现营收18.95亿美元◈★★,同比增长63%◈★★,创历史新高◈★★。Marvell也预测◈★★,随着AI计算需求的增长◈★★,公司ASIC占比有望提升至25%◈★★,预计2028年数据中心ASIC市场规模将提升至429亿美元◈★★。
中国ASIC服务器市场增速超40%◈★★。中国ASIC服务器市场未来在中国市场◈★★,由于部分高端GPU产品受供应的限制◈★★,出现了算力缺口◈★★,另外中国头部的互联网企业为了降低成本以及更好地适配自身业务场景◈★★,也增大了自研ASIC芯片服务器的部署数量◈★★。IDC预测◈★★,2024年中国加速服务器市场规模将达到190亿美元◈★★,同比2023年增长87%◈★★。其中GPU服务器依然是主导地位◈★★,占据74%的市场份额◈★★。到2028年◈★★,中国加速计算服务器市场规模将超过550亿美元◈★★,其中ASIC加速服务器市场占比将接近40%◈★★。
随云厂商积极自研ASIC芯片◈★★,ASIC正成为AI服务器市场中与GPU并行的重要架构◈★★,进一步带动高阶PCB的需求◈★★。金像电为全球服务器PCB第一大厂◈★★,也是ASIC服务器放量时PCB企业中的最大受益者◈★★。金像电的产品已经切入北美四大CSP◈★★,涵盖UBB◈★★、OAM(加速器模组)所需要的HDI◈★★、厚铜板等◈★★。根据金像电25Q1法说会资料◈★★,公司25Q1单季度实现收入29.52亿元◈★★,创历史新高◈★★,其中服务器收入占比持续提升◈★★,到72%◈★★。在传统服务器市场温和复苏背景下◈★★,金像电业绩高增核心来自于云厂商ASIC服务器PCB订单◈★★,根据公司交流◈★★,2024年AI产品占比已达20%◈★★,未来将持续提升◈★★。
根据Semianalysis数据◈★★,亚马逊第二代推理芯片Trainium2的计算托盘中使用了2个Trainium2的芯片◈★★,即用到2个OAM◈★★,下面是一块UBB板◈★★。UBB为采用了M8规格覆铜板材料的28层高多层板◈★★,OAM为M6/M7的三阶HDI◈★★,往下一代Trainium3迭代的过程中◈★★,UBB中层数◈★★、OAM层数及阶数均会进一步提升◈★★。
展望2025年◈★★,除AWS外◈★★,谷歌◈★★、meta的新产品中◈★★,ASIC服务器UBB层数均将向30层板以上推进◈★★,制作难度加剧◈★★,也将进一步推动ASP的提升◈★★,ASIC服务器PCB将迎来量价齐升阶段◈★★,同时也将拉动上游高规格(M8等)覆铜板的需求◈★★。
三大增量助力推理算力需求加速◈★★。AI算力消耗开始从训练走向推理◈★★,并且带来显著的算力增量◈★★,探究背后增量需求主要来自三方面◈★★:一是各家互联网大厂纷纷加速AI与原有业务结合◈★★,如谷歌搜索在今年5月21日正式迎来 AI 模式◈★★,并逐步在美国市场推出◈★★,考虑到谷歌搜索全球范围内年搜索量为5万亿次+◈★★,假设单次回答平均为2000 token◈★★,则该功能将带来日均27万亿token消耗(超过其Gemini模型目前日均16万亿token消耗)◈★★,类似案例如抖音搜索◈★★、微博AI智搜◈★★,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验◈★★,类似的视频编辑◈★★、剪辑功能也被AI重塑◈★★;二是Agent和深度思考推理的结合◈★★,通过两者结合◈★★,Agent执行任务准确率大幅提高◈★★,Agent执行一次任务平均消耗token达到十万亿的量级◈★★,大幅超过AI搜索单次问答token消耗◈★★,并且能延伸到更多开放式场景◈★★,如智谱发布会演示的“用你最擅长的方式去赚100块钱”◈★★,同时多Agent协作的群体智能也已开始逐步商用化◈★★,过去复杂88bifa (中国区)官方网站◈★★、多步骤的任务可通过Agent实现◈★★,Agent的普及将带来推理算力需求的大幅增长◈★★;三是多模态◈★★,随着多模态生成的图片及视频质量今年均显著提升◈★★,今年AI营销内容占比提升十分明显◈★★,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主◈★★,已经在生成创意内容时使用AIGC◈★★,并且AI营销内容占比超过10%”◈★★,而一分钟视频的生成token消耗基本在10万亿token量级◈★★,目前多模态模型开始步入快速商业化阶段◈★★,如快手可灵4◈★★、5月连续两月付费金额超过1亿◈★★,多模态的加速渗透带来明显的算力需求提升◈★★。
展望2025年下半年及26年◈★★,我们认为算力领域投资分为海外景气度投资以及国内自主可控两大类◈★★:
海外景气度投资◈★★:1)重视推理占比的提升◈★★:参照台积电Cowos扩产节奏◈★★,ASIC芯片在26年的边际变化最为明显◈★★,同时英伟达依然有较高增速◈★★;2)围绕机柜增量变化及新技术投资◈★★,25年下半年核心是英伟达NVL72机柜上量◈★★,其中液冷散热◈★★、铜连接◈★★、电源变化最大◈★★,散热方面将是AI算力领域未来几年核心技术升级方向之一◈★★,目前供应商以台系厂为主◈★★,考虑到中国大陆的公司扩产能力更具优势◈★★,我们认为液冷散热领域一系列部件会有更多中国大陆供应商进入到全球供应体系◈★★。铜链接方面◈★★,铜线在短距数据传输的成熟度更高且448G等新技术路线逐步面世◈★★,今年扩产最快的公司将充分享受从Blackwell到Rubin所带来的高速连接需求增长◈★★。电源领域重视氮化镓等机会◈★★;3)围绕预期差及景气度投资◈★★,重视PCB◈★★,英伟达◈★★、亚马逊◈★★、META◈★★、谷歌等相关需求景气度高◈★★,并重视上游国产化比例提升◈★★,并且部分领域库存开始下降◈★★、价格具备一定弹性88bifa (中国区)官方网站◈★★。
国内自主可控◈★★:一方面来自于美国BIS政策的持续收紧◈★★,另一方面随着国内算力消耗快速增长(典型如字节跳动◈★★,每三个月token消耗接近翻一倍◈★★,5月底为16.4万亿token)◈★★,我们预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张◈★★,在达到60万亿token时会开始出现一定算力缺口◈★★。我们认为国内增速斜率更陡峭◈★★,国产芯片今年将迎来发展大年◈★★。
自从23年ChatGPT出现以来◈★★,基于AI业务token消耗的快速提升◈★★,海外大厂开启CAPEX高额投入周期◈★★,持续在模型训练和推理端加大算力投入◈★★,模型性能得到快速迭代◈★★。与此同时◈★★,伴随24年12月以来DeepSeek V3和R1的逐渐发布◈★★,其首次实现了国产模型在推理任务上与 OpenAI-o1的基本相当◈★★,并引发了访问流量的快速扩大(DeepSeek 应用(APP)于 2025年1月11日发布◈★★,1月31日DAU达 2215 万◈★★,达 ChatGPT 日活用户的 41.6%◈★★,超过豆包的日活用户 1695 万)◈★★,伴随Deepseek带来的降本范式(FP8 混合精度训练框架)持续演化◈★★,模型输入/输出成本得到快速下降◈★★,AI应用大范围推广成为可能◈★★。云计算产业作为模型训练/推理需求快速扩大下的直接受益方◈★★,进入了持续高景气周期◈★★。
站在当前时点◈★★,云厂云业务营收增速与营业利润率(或EBITA利润率)是CAPEX投入的前瞻指引◈★★。2023年以来◈★★,伴随着Transform架构下Scaling law的持续生效◈★★,各家大厂均对模型训练做出大量投入◈★★。考虑到此时海外厂商并不以投入产出比来做出CAPEX投入的衡量◈★★,且模型能力边界本身尚不清晰◈★★,因此25年以前◈★★,更多以CAPEX本身作为实际算力需求的前瞻指引◈★★。但25年以来伴随LLM模型能力边界逐步逼近上限◈★★,模型训练需求相对有所下滑◈★★,推理开始成为核心需求来源◈★★,CAPEX投入产出比逐步进入可测算阶段◈★★。在此基础上◈★★,云业务增速与营业利润率趋势成为算力需求的直观体现◈★★,也是后续CAPEX投入力度的核心决定因素◈★★。
以阿里云为例◈★★,24Q2是阿里云算力投入决策的核心拐点◈★★。2022年以来◈★★,由于互联网大厂业务的快速收缩◈★★,阿里云营收增速快速下滑◈★★,同时伴随着云资源池利用率的降低◈★★,营业利润率随之下降◈★★。23年以来◈★★,通过提升公有云业务占比以提升利润率与发展AI以实现营收提速成为阿里云的核心战略◈★★。伴随24Q2阿里云营收增速首次由负转正(AI业务贡献较大增量)◈★★,GPU实例业务的需求和盈利性的首次得到论证◈★★,因此从24Q3开始◈★★,阿里云CAPEX投入力度快速加大◈★★,并在24Q4的业绩交流会上宣布三年3800亿资本开支计划◈★★。
当前国内云厂仍处于资本开支投入第一阶段◈★★,短期投入力度具备保障◈★★。参考海外厂商◈★★,云业务的发展往往有三个阶段◈★★,而目前我国云计算业务还在第一阶段◈★★。以微软为例777sao◈★★,23Q1开始其率先进行大额CAPEX投入◈★★,以配合OpenAI模型的快速发展777sao◈★★,受益于更高利润率的AI业务快速发展◈★★,23Q1-23Q3公司Azure营业利润率进入快速上行阶段◈★★;随后◈★★,从23Q4开始高额资本开支开始逐渐对折旧端产生压力◈★★,相对应的微软也做了员工数量削减◈★★,希望通过费用的控制来维持营业利润率的持续上行◈★★;后续◈★★,伴随折旧压力放大◈★★,资本开支进入平稳周期◈★★。
目前阿里云的营收分为对内关联交易和对外商务◈★★,对内AI部分主要支持夸克◈★★,钉钉◈★★,高德等调用通义/DeepSeek模型◈★★,对外创收中的AI业务主要包含GPU租赁◈★★、MaaS服务◈★★、模型服务(百炼与PAI平台)三类◈★★。由于近年来模型侧价值量逐渐被云端内化(MaaS的价值量被带入到了IaaS中)◈★★,导致GPU租赁成为了公有云业务中毛利率更高的部分◈★★,大幅资本开支本质是为了让高毛利率GPU租赁业务占比快速扩大◈★★,以此拉动AI业务规模快速增长◈★★。在此思路下◈★★,从24Q2开始◈★★,AI业务成为支撑公有云增长核心动力◈★★,24Q2一半以上营收增速来自AI贡献◈★★,且在后续持续保持100%以上同比增长◈★★。
相比传统CPU实例◈★★,中期看GPU实例将具备更高投入产出效率◈★★。一方面◈★★,传统公有云商业模式下◈★★,云厂主要提供计算◈★★、网络◈★★、存储等同质化服务◈★★,难以在客户体验上产生本质性不同◈★★,更多是依托规模效应◈★★。而GPU租赁时代◈★★,客户需求主要聚焦于模型训练与推理◈★★,智算平台的运维能力和自动化◈★★、容错率是竞争优势的核心区分◈★★,“有效训练时长”是各家智算业务中的一项关键性能指标◈★★,如阿里云今年四月就强调◈★★,其“万卡级超大规模训练中◈★★,一个月内灵骏GPU集群有效训练时长占比能超过93%”◈★★,相对而言◈★★,大厂云平台具有更强稳定性◈★★;另一方面◈★★,在提供GPU实例租赁的服务同时◈★★,大厂同时也会提供模型训练/推理加速服务◈★★,通过算力与通信的调度实现训练效率数倍式提升◈★★。双重优势下◈★★,大厂GPU实例租赁具备一定溢价能力◈★★,相对传统CPU实例更具备投入产出比◈★★。
长期看◈★★,通过超卖率的提升◈★★,GPU实例将持续保持较高的盈利能力◈★★。过去十年以来◈★★,公有云价格进行了数次降低◈★★,其降价能力一方面来源于规模效应对运营成本的分摊(以及关键技术自有化)◈★★,但另一方面也来源于CPU超卖能力的不断增强◈★★,使单CPU实例实际收费能力大幅上升◈★★,因此得以在不断降价的背景下实现利润率稳定◈★★;目前阿里云GPU租赁业务仍以模型微调需求为主◈★★,而TensorFlow◈★★、Pytorch等智能化应用框架开发的应用往往会独占一张GPU整卡◈★★,无法做超额出售◈★★,但伴随后续推理需求大幅提升◈★★,则GPU虚拟化是必然趋势◈★★。GPU实例超卖率的提升将进一步拉高GPU租赁业务的EBITA利润率◈★★,并为后续降价获客提供空间◈★★。
高算力需求推动算力中心单机功率密度提升◈★★,液冷散热走向必选◈★★。传统风冷系统通过让冷源更靠近热源◈★★,或者密封冷通道/热通道的方案◈★★,来适应更高的热密度散热需求◈★★。随着机架密度升至20kW以上◈★★,多种液冷技术应运而生◈★★,从而满足高热密度机柜的散热需求◈★★。此外◈★★,液冷散热相较于风冷更加绿色低碳◈★★,PUE(Power Usage Effectiveness◈★★,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标◈★★,也是行业评价算力中心绿色性能的主要衡量指标◈★★,PUE值越接近于1◈★★,代表算力中心的绿色化程度越高◈★★,液冷散热往往更接近于1◈★★。从分类来看◈★★,液冷技术主要分为冷板式◈★★、浸没式和喷淋式液冷技术等技术类型◈★★,其中冷板式液冷技术作为成熟度最高◈★★、应用最广泛的液冷散热方案◈★★。
以英伟达GPU芯片为例◈★★,单芯片及机架热功耗增长迅速◈★★。英伟达的B系列芯片和NVL72机柜热设计功率TDP(Thermal Design Power)大幅提升◈★★:H100的TDP最高为700W◈★★,B200的TDP最高为1200W◈★★,增长约7成◈★★;H100每个机架的TDP约为40kW◈★★,B系列机架的TDP约为120kW◈★★,功率增约200%-500%◈★★。H100机柜主要采用风冷散热◈★★,但是由于受限于风冷散热效率较低和空间利用率低的缺点◈★★,GB200 NVL72机柜采用水冷散热◈★★。水冷散热能够提高芯片散热效率◈★★,大幅提高计算密度从而降低芯片互联之间的延时◈★★,进一步降低模型训练成本◈★★。
风冷散热主要元件◈★★:热界面材料TIM(直接覆盖在GPU之上)◈★★、集成散热器IHS(与TIM相连)◈★★、多维两相均温元件3DVC(由热管和散热片组成◈★★,安置在IHS之上)◈★★、风扇(安置在服务器最前面或者最后)◈★★。3DVC的得名来自于1维的热管◈★★、2维的散热片◈★★、3维的热管与散热片腔体互通◈★★;VC(蒸汽室)来自于液体蒸发冷凝的过程◈★★。风冷散热原理方面◈★★,芯片的热量通过TIM传导至IHS之上◈★★,热量进入3DVC中将3DVC中的液体蒸发为蒸汽◈★★,蒸汽通过热管向上传导至上方多层散热片中◈★★。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体◈★★,过程循环往复◈★★。因此◈★★,风冷散热有两部分组成◈★★:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调◈★★。
液冷散热在散热能力及空间利用率方面优势显著◈★★。水的热容量为空气的4000◈★★。