“中国英伟达”猝死于2024
作者 亚洲视觉科技研发总监 陈经 编辑 郑可君 苏扬
授权转载,中国本文首发于腾讯新闻科技频道:“中国英伟达”猝死于2024
行业看到“美国禁令”的英伟大利好之后,感觉机会来了纷纷行动。达猝如今正在经历冰火两重天。死于
国产芯片设计公司正在经历冰火两重天——一些公司风光上市,中国一些公司却不得不走进ICU。英伟
9月12日,达猝国产GPU独角兽壁仞科技进入了上市辅导程序,死于IPO在即。中国11月11日,英伟消息称摩尔线程已完成股份制改造,达猝目标科创板上市。死于作为对比,中国国产厂商象帝先却被传出解散的英伟消息。
2020年9月,达猝中科院计算机专家唐志敏牵头创立象帝先,进入GPU创业赛道,被外界称之为“中国英伟达”,同年象帝先拿下天使轮融资,并于2023年完成来自14个投资方的3轮融资,随后于2024年成为重庆市独角兽企业,估值150亿元。
针对解散传闻,象帝先发文回应称未解散、清算,只是通过人员优化降低成本,并且会保留核心研发团队,并且正在积极与投资者沟通,寻找外部融资。
象帝先对解散传闻的回应
一时间,象帝先为什么会突然大举收缩,国产GPU创业赛道开始洗牌了吗?这些也成为了国产GPU乃至整个芯片产业需要思考的问题。
01 “中国英伟达”的战略误判
2014年9月,国家集成电路产业投资基金(简称大基金)成立,一期募资超过1300亿元,制造与设计都是当时重点的投资方向。在此之前的6月份,《国家集成电路产业发展推进纲要》就已经公布,其中有两个关键目标:
2020年,“集成电路产业与国际先进水准的差距逐步缩小,16、14纳米制造工艺实现规模量产”;
2030年“集成电路产业链主要环节达到国际先进水准,一批企业进入国际第一梯队”
在这一大背景下,国内GPU创业第一波大潮拉开序幕,芯原微、景嘉微、龙芯等在这一阶段都开始布局相关项目。
不同时期成立的国产GPU创业项目,数据来源:企查查
现在回头来看,当初《纲要》对晶圆代工部分定的KPI其实完成得还不错。
2020年,中芯国际已能够以95%的良率实现14纳米的量产,如今还突破到更先进的节点,不过我们也要正视问题:先进工艺依旧在不断往前推进,过去的先进工艺,将来会被划分到成熟工艺;我们的制造能力进步都建立在进口设备的基础之上,距离全产业链的国际先进水平目标仍有差距。
到了2018年,中、美科技竞争加剧,断供的风险急剧飙升——中兴通讯被迫喊出“美国禁令将使公司立即进入休克状态”,台积电被迫停止向华为提供麒麟芯片代工服务,国产GPU创业进入第二轮投资浪潮,象帝先就是在这一轮创业大潮下诞生,同期的国产团队还包括壁仞科技、摩尔线程、沐曦等。
象帝先董事长唐志敏是中国芯片领域罕见的战略级科学家,我在20多年前就有过了解,曾在多家国产芯片项目当中担任负责人。
2000年,龙芯董事长胡伟武的热文《我们的龙芯一号》中,唐志敏就以龙芯项目负责人的身份出现。在创立象帝先之前,唐志敏还领导了海光的CPU、DCU项目,不过相关项目商业化都不是很成功,关键问题还是因为过度依赖AMD的Zen1授权,这里不展开讨论。
2020年9月成立初期,象帝先完成天使轮融资,2022年完成A轮融资。到2021年,两年时间公司规模已超过200人,发展速度非常快,而不久前由哈佛3名00后辍学生组建的AI芯片项目“Etched”团队仅仅只有35个人,所以不少观点认为,象帝先在前期扩张太快,但这种比较略显绝对,后文再详细展开。
2022年,象帝先迎来高光时刻,当年基于Imagination的IP核授权,流片并发布了“天钧一号”GPU——12纳米工艺,2048个计算核,4TFLOPS的FP32算力、16TOPS的AI算力、16GB显存、256GB/s带宽。
横向对比硬件指标,象帝先的“天钧一号”在带宽、算力和工艺上与2022年的国产竞品有一定差距,其性能勉强追上英伟达2019年的中高端产品RTX 2060(如下表),后者同样采用12nm工艺,总计1920个计算核心,6.5TFLOPS的FP32算力,51.6TOPS的AI算力,6GB显存,带宽336GB/s。
相关GPU产品硬件指标对比,来源:产品官网及相关报道
2023年9月,象帝先发布“天钧二号”,这代产品定位低端,1024个计算核心、2.6TFLOPS的FP32算力、8GB显存、128GB/s带宽,主打低功耗和高性价比。
两款产品作为敲门砖,帮助象帝先在2023年完成了至少来自14个资方的3轮融资,并于2024年成为重庆市独角兽企业,估值超过150亿元,被诸多媒体称之为“中国英伟达”。
不过,“中国英伟达”的帽子,对于象帝先来说不一定匹配——它要对标的英伟达,营收构成已经风格大变,数据中心业务占比接近90%。
英伟达营收构成,2023财年Q1,数据中心业务首次超过游戏业务 来源:App economy insight
而象帝先直到2024年,还停留在桌面显卡市场,唯一能和AI芯片相关联的产品,是2024世界人工智能大会上亮相的一块神秘的PCIE版本服务器显卡XDX X1900。
外界传过B轮融资满5亿元的对赌协议是压垮象帝先的“最后一根稻草”,而对赌牵涉的资本问题,与整个大环境有关,今年7月份,澎湃新闻在报道中披露,深创投大批量发起回购诉讼,通过这种方式来退出被投项目,但象帝先的境遇不能说明国产芯片设计团队遭遇资本寒冬,壁仞、摩尔线程毕竟还在排队IPO。
2024年世界人工智能大会上“象帝先”公司展出的产品矩阵
从我的角度来看,问题核心还是战略误判,对赌协议只是象帝先“解散”的导火索,即便没有这个诱因,也可能会出现其它原因。
对于象帝先目前的资本困局,我尝试过与其市场部前员工进行求证,但未获得正面答复,只是表示“我们也都盼着好消息。”
02 其实,GPU厂商是“软件公司”
国产创业项目还在追硬件指标,然而GPU竞争已经从硬件为主、软件为辅的比拼,转变为硬件+软件的综合生态能力较量。
深度学习爆火之前,通用GPU需求数量最多的应用方向是PC桌面显卡,英伟达、AMD、英特尔是主要玩家,其中英特尔主要在CPU上集成GPU,2022年又重回独显市场。三家提供的产品多,满足办公、游戏、图形等各类需求。
根据市场研究机构JPR的数据,PC显卡供应商市占率,英特尔凭借集成显卡出货占据68%份额位列第一
新入局者,想要在这样的市场上分一杯羹,不仅需要扎实的产品性能,更需要运行多年的成熟供应链体系支撑,难度极高。
就拿象帝先的天钧一号来说,不仅性能无法和同期国产产品抗衡,与国际市场上的对手差距在3年左右,这意味着新晋者连打价格战的实力都不具备。
更重要的是,桌面显卡聚焦图形处理能力,而深度学习兴起之后,基于并行计算优势,GPU找到了新的增长空间。
两个指标可说明GPU通用计算需求“暴增”——其一,“算力顶流们”的数据中心业务急剧膨胀;其二,“硅谷巨头”算力储备急剧膨胀。
一方面,截至到今年10月27日的第三财季,过去四年,英伟达的数据中心业务增长了约30倍,财季营收从11亿美元(占比25%)暴增到309亿美元(占比88%)。
另一方面,研究机构Omdia的数据显示,截至2023年第三季度,英伟达H100出货量达到65万张,其中Meta和微软分别拿下15万张,接近全部订单的一半。到2024年,微软的Hopper系列GPU储备量直接冲到了48.5万张,其AI数据中心支出超过300亿美元,位列所有硅谷巨头之首。
研究机构Omdia披露的近两年美国主要科技公司Hopper架构GPU的储备量
深度学习和人工智能为GPU带来了潜在的机会和蛋糕,但这不代表初创公司一定就有机会拿下,像AMD这样的GPU老玩家,一些产品算力指标都超越了英伟达,但在竞争中就是打不赢,以CUDA为代表的软件生态扮演了至关重要的作用。
有一个细节,今年的GTC大会上,黄仁勋说“英伟达是一家软件公司”,指的就是其GPU产品“统治”AI的关键因素之一,CUDA生态。这一点我在《没人能“杀死”1.5万亿美元的英伟达》一文中也解释过。额外插一句,这才过去半年多时间,英伟达市值已经冲破3万亿美元市值。
生态系统的统治力如何理解?可以类比用户对操作系统的偏好——苹果的macOS现在足够优秀了,过去10年其市场份额翻了一倍,但Windows仍然有先发优势以及用户的接受度,牢牢占据着70%的份额,这就是生态系统的力量。
基于GPU的通用计算,生态系统的重要性可能比操作系统还要极端——开发者一旦适应了英伟达的软件生态,就很难从其中切换出来。
举个例子,假设某个企业要采购国产GPU,首先就要解决代码兼容性问题,包括不兼容的库和函数都要替换或者修改,虽然国产厂商会提供迁移工具,这仍需大量的开发工作,迁移过程还会引发应用性能损失的问题,要减少这种损失,就得根据国产GPU的架构来调整优化算法,这又进一步增加开发工作量。
设备的稳定性也是影响效率的一个关键因素,之前Meta在论文中曾披露过——H100的万卡集群训练Llama 3.1,平均3小时故障一次,尽管很多问题都可以自动化处理,但依旧会增加人力和时间成本,最终影响效率。
而这还是H100这样市占率超高的产品,一些问题还有可能在线上社区找到解决方案,一旦换成国产设备,如果支持生态做得不好,快速定位问题并获取解决方案都不是一件容易得事情,用比较流行的话说,切换国产GPU的TCO(总拥有成本)太高。
从心理上说,应该有很多企业愿意支持国产芯片,采购成本不便宜也可以接受,但是从商业的角度来说,如果开发特别麻烦、使用出现问题,占用了研发团队过多精力,这样的商业合作很难维持下去。
抛开市场需不需要这么多英伟达的问题来看GPU、AI芯片创业,现在很多新项目一亮相就是数十倍的“吊打”英伟达,硬件指标看上去不用担心了,但除了纸面数据要好外,一开始就要想好如何做生态。而一旦涉及做生态,对于“400人算不算多”这类问题,就会好回答很多——我所知道的是,英伟达这样的企业,在大客户那里一般都会安排数十人的驻场支持团队。所以,GPU厂商是“软件公司”这个观点现在来看非常贴切。
03 只做“替代”很难上牌桌
没有生态支持的GPU通用计算项目,开局可以说是机遇与挑战并存。
由于美国限制高性能AI芯片向大陆出口,客观上给国产厂商打开了机会之门。当所有企业都拿不到,或者很难通过正常渠道采购海外先进产品时,能够稳定供货的国产GPU就会成为争抢对象,而且现在政策和机构也在鼓励这件事,这也会加速国产半导体生态的成熟与进化,华为在手机芯片上已经验证这一点。
与手机芯片不同,GPU作为“大芯片”,die size都在500mm?以上,比如RTX 4090是600mm?,H100是800mm?+,如果采用高带宽内存,还要着重考虑先进封装技术。
用于通用计算的主流GPU(右侧),die size为826mm,Cerebras WSE-2(左侧)专用芯片达到了46225mm
所以,除了前面说的战略误判,影响国产GPU成功的因素还包括IP、设计、制造、销售等环节之中,并且环环相扣。
在设计环节首要面对的就是IP授权和设计工具的问题,象帝先、摩尔线程都是拿Imagination的IP授权,然后采用海外公司的设计工具,如果这两个领域得不到持续地更新支持,就存在断供风险。
设计的下一个环节就是制造。很多企业的产品硬件指标,无论单项还是多项都很优秀,但能否流片成功,并且以高良率量产也很关键。
单就流片这个环节的单次费用就高达上亿元,如果流片失败就得额外再支付费用,之前英伟达的Blackwell芯片遭遇“跳票事故”,一度带崩其股价,英伟达可以扛得住这种风险,创业团队未必能经受住。
好消息是,在制造端,过去几年在美国的极限施压之下,国产制造工艺和设备已经有了很大进步。9月份,工信微报披露了国产光刻机的进展,按官方提供的数据,纯国产设备已经可以覆盖65nm工艺的芯片,这对于中国芯片产业具有很大的意义。不过,虽然大陆自主晶圆制造技术进步迅速,但先进产能也相对有限。
所以,现阶段大陆的fabless,也还离不开对台积电的依赖。而且,因为创业团队体量与需求量的差异,代工费用会有差别,同等工艺代工费用可能是台积电的1.5倍左右,这也会影响初创公司的毛利率。
设计、制造之后,就是如何把产品卖出去,实现正循环。一些现在还活跃的一些头部创业团队,很多背后都有上市公司的支持,这些上市公司在各地推动构建智算中心,对于创业团队来说,它们既是投资人,又是客户。这种逻辑还可以类比云计算厂商——自研AI芯片更容易成功,自己就是自己的客户,能形成很好的自循环。
很多人问中国芯片的出路在哪里,从一个外部观察者的视角,短期的确要实现自主替代,长期则需要参与到对产业的标准制定当中,这样才能够影响到全球产业。我想举一个大疆的例子,它也被纳入了实体清单,可结果呢?美国要制裁它,又不得不想办法来买它的产品。
过去,行业看到“美国禁令”的大利好之后,感觉机会来了纷纷行动、融资开跑,是可以理解的冲动。但最终,创业团队与资本在普及认知、达成共识之后,结合产业发展窗口来攒局,才能更好地准备应对挑战,在未来中国芯片生态“大成”之时,成为胜利者中的一员。如果上述条件都不具备,更多的“中国英伟达”可能会迎来不确定性。
本文地址:http://owcws.ahlulin.com/html/40d24199718.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。