对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够

对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够

出品 | 联合网科技组

作者 | 丸都山

编辑 | 苗正卿

头图 | 行云集成电路

在北京万泉河畔的一幢写字楼内,我初次见到季宇。

他的身上有着多个令人瞩目的标签:前华为“天才少年”;昇腾编译器专家;清华大学计算机科学博士;CCF(中国计算机学会)优秀博士学位论文获得者。

两年前,季宇从华为离职后,创办了行云集成电路,走上了自研GPU的道路。

而相较于他本人,更令我印象深刻的是他的办公室——各类物品摆放得井然有序,房间内纤尘不染,这样极致的整洁度,在工科背景的创业者中实属少见。

“主要原因是平时都在工位办公,所以办公室才能保持整洁。”正当我发出赞叹之时,季宇将手指向屋外,做出了补充说明。

这种令人猝不及防的“坦率”,在接下来两个小时的对谈中,上演了多次。

比如在谈到公司前不久发布的DeepSeek一体机“褐蚁”时,他甚至直接用“组装机”一词来代指。

对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够

对于关注AI行业的人来说,“DeepSeek一体机”的概念一定不会感到陌生,这是一种融合了高性能硬件、模型算法框架和行业应用软件的集成化计算设备,也可以粗暴地理解为“一台本地部署DeepSeek模型的电脑”。

当然,在硬件层面,DeepSeek一体机离不开上游产业链的支持,通常都是“英特尔/国产CPU+英伟达GPU+一定数量的系统盘/内存盘”组合。

这也是季宇将DeepSeek一体机称之为“组装机”的原因。

不过,相较于过去家用的组装机,DeepSeek一体机的“攒机成本”要高的多,比如在一台机器里放置8张H20芯片,仅GPU这项成本就奔着80万去了。因此,通常DeepSeek一体机报价都在百万级区间。

而在季宇看来,现阶段的大模型本地部署,成本上完全可以实现一个“数量级的降低”——从百万级拉低至十万级。

这是如何实现的?季宇给出的回答让人惊掉下巴。

“现在的大模型其实是不一定必须在GPU跑,CPU的内存带宽已经足够,CPU的内存可比GPU的显存便宜多了。”季宇解释道。

这番言论着实有些反常识。

因为在传统认知里,CPU内存的容量大,但带宽低;GPU显存的容量小,但带宽高。又因为大模型涉及大量的数据并行处理,对存储带宽有着很高的要求,因此在大模型训练和推理的过程中,GPU要比CPU更加适合,这是业界公认的事实。

在我抛出疑问后,季宇现场给我算了一笔账:

“最新的服务器级CPU,已经配备了12内存通道,DDR5的内存频率是6400M,再结合双路服务器的形态,顶级的CPU内存带宽可以达到1.2TB/s,已经超过RTX 4090(1TB/s)的水平。”

可即便大模型可以通过“跑在CPU”上的方式,来大幅降低成本,那么对于季宇和他所创立的行云来说,技术护城河是什么呢?业内其他公司同样可以复制这个技术路线。

更重要的是,作为一家主业为GPU研发的公司,却站出来否定GPU在大模型时代的重要性,多少有点“左右互博”的意味。

对此,季宇解释道,“现在我们用的公版CPU,它不是为了大模型而定制的,我们需要的是CPU内存,但CPU上配备的几百个物理核是用不上的,所以我们会重新设计一款芯片,它当然还是高性能计算卡,但与现在英伟达主推的GPU完全不是一个概念。”

值得一提的是,季宇自称是个“资深NV吹”,非常推崇黄仁勋的经营哲学,在他看来,英伟达能够在短短两年内掀翻英特尔的行业地位,背后源于黄仁勋十余年的系统性布局,从最早期的对元宇宙、比特币、生物医药等领域的投资,以一种“润物细无声”的方式,向行业证明GPU未来要比CPU重要。

某种程度上,现在的季宇会想到去做一款DeepSeek一体机,也是受到黄仁勋的启发。

“我们对于这个产品的定位,可能更偏向于PoC(概念验证),我不需要它赚多少钱,但我要向行业证明这个路线是可行的,如果行业里能有大批玩家接受,我们就能通过自研的芯片,为他们提供更低成本的方案。”

这位“资深NV吹”,似乎正在通过黄仁勋的方式,来挑战英伟达的权威。

以下为笔者与季宇交流实录,部分内容略有删减:

联合网:你之前在华为是做编译器开发的,为什么创业后会想到跨领域做GPU?

季宇:其实我在学校时研究的方向和入行后的工作,也没什么相关性。我那会学的是体系结构,算是与芯片架构相关。当时选择编译器时因为我发现行业内做了很多不错的芯片,但是最后商业化的时候还是卡在了软件生态这件事情上。我觉得要考虑它上面的编译器软件应该怎么去搭建,才能解决它这个端到端的问题。

后来做GPU是因为在大模型出来后,我意识到这件事情的长期确定性是非常高的。而且本身我们就是愿意去做这种新的事情。因为你做老的事情其实是没有太多的机会的对吧?因为老的事情格局,包括这个行业的秩序,其实都已经逐渐成型了你只有新的行业才有这个探索的可能性,也才适合创业公司。

联合网:从创业至今,你做过的最难的一次决定是什么?

季宇:可能出来创业这件事本身最难的,因为我得先想清楚,就是把商业逻辑想清楚,剩下的所有的事情都可以边干边学。

联合网:那在GPU行业里,你想清楚的商业逻辑是什么?

季宇:就是今天如果大家按照NV的路线去追赶NV,是不可能挑战成功的,计算机历史上就没有发生过。

我们可以回顾下,当年英特尔是怎么挤掉IBM成为行业龙头的?它不是靠我做了一个性能超强的大型机,而是靠8086这种毫不起眼的小芯片,最后推动了PC产业革命,让大家逐渐抛弃大型机,甚至后来集群也抛弃了大型机。

后面英伟达取代英特尔也是一样的,NV不是在做了一个性能多么强的CPU,而是告诉大家GPU可以用来做什么,它用了十年的时间直接把CPU在计算机行业中的历史给抹掉了。

联合网:所以当下行业中会发生这样的“新旧交替”的机会吗?

季宇:我觉得最重要的一个事情是要把大模型从超算竞争变成消费电子竞争,让每个人都用得起你,这个才能真正进入经济循环,进入各行各业。

所以我们大的逻辑是希望我们做的产品,是能够在像今天的消费电子一样的价位,同时又能够把今天超算才能做的这些最高质量的大模型,能用这样的产品能够支撑起来。

联合网:我们做的DeepSeek一体机“褐蚁”,为什么能把价格拉低到“十万元”档?

季宇:今天核心的矛盾是在于模型需要的显存跟今天单张卡的显存gap太大了。所以导致大家今天可能为了跑这样一个模型,得凑非常多的GPU,自然而然把整个行业的形态推成了一个8卡16卡的服务器的形态,然后价格都是上百万的。

但现在CPU的内存带宽也完全能够满足大模型的,顶级的服务器级CPU的内存带宽可以达到1.2TB/s,已经超过RTX 4090(1TB/s)的水平,而且它的容量也比GPU大的多,最重要的是跟动辄几百万的超算相比,内存条就相当于是不要钱了。

联合网:那行业内其他厂商没有意识到这个问题吗?

季宇:一方面,计算机行业是个惯性很大的行业,当所有人都习惯用GPU去做训练的时候,人们自然不愿意轻易尝试其他方案。

另一方面,可能大家都觉得用内存跑大模型,充其量只能达到Mac Studio那种水平,没法转化为生产力,但我们想通过极致的软件优化来把这么高的带宽水平发挥出来。让大家使用体验真正能达到,跟一个超算的体验没有什么区别。

联合网:我看到“褐蚁”的配置基本都是公版的,那这个行业存在硬件门槛吗?

季宇:我希望推动这个应用普惠,就应该用最普通的东西,大家都习以为常的东西,然后把这样的一个事情变成大家都用得起来,我觉得这才是一个关键。而不在于说你们一定要做一个什么门槛,然后让别人都进不来,其实这个不是我们期望的。

联合网:我们现在做的DeepSeek一体机,和行云的核心业务(自研GPU),有什么关联性吗?

季宇:我们自研的GPU,可以进一步降低整机的成本。

举个例子,比如现在的CPU和GPU是为了大模型一体机设计的吗?肯定不是,它的价值是建立在别的方面,但有些东西我们是可以扔掉的,但是有些东西我们是可以加强的,可能它非常不重要的一件部件,我们是值得强化的,而它很重要、甚至建立整个价格梯度的东西,我们是可以抛弃的。

联合网:能否展开讲讲,哪些是值得强化的?哪些是可以抛弃的?

季宇:比如CPU里的物理核,很多我们都用不上的,我们今天的重点是DDR内存,之是为了把DDR内存用起来,才用了这个CPU,至于它有几百个核跟我没有关系,我们只选了一个32核的,也完全能拉满内存通道带宽,而我们自己设计的芯片就可以把这些多余的物理核去掉,最大程度发挥DDR内存的性能,同时也能让成本大幅降低。

联合网:对于应用端来说,他们会很看重这种一次性成本吗?

季宇:如果行业里都是一台上百万的超算,那么行业可能就会卡在那边,大家会一直在想AI到底能做什么事情,云厂商天天想我到底找什么超级应用?这个其实对所有人都是难受的。大家更在乎就是说只要这个价位降到一定的水准之后,这个行业是有可能爆发的。

我可以再举一个例子,我们接下来还会发布一个叫“蚁群”的项目,就是用一堆“褐蚁”去做集群,大概300-400万的预算,我们就能实现500-1000的并发,这是什么概念?一千并发差不多可以支持10万DAU,那意味着很多小的创业团队都可以出来做了,大家一起去挖掘。

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:联合网,转转请注明出处:https://www.anesthesia.org.cn/13060.html

(0)
联合网的头像联合网
上一篇 2025年5月19日 下午5:26
下一篇 2025年5月19日 下午5:30

相关推荐

  • 于东来被网红气的要退圈?

    出品|联合网商业消费组 作者|柳柳 编辑|苗正卿 题图|视觉中国 对于胖东来和于东来本人来说,这个五一是不平静的。 关于胖东来可能关闭的传闻引发大众关注,而传闻的背后,是胖东来与抖音网红 “柴怼怼” 之间的激烈冲突。冲突的缘起,是围绕玉石销售的争议。 4月5日,玉石赛道博主柴怼怼在社交媒体上发布视频,称胖东来并非依靠商超业务盈利,真正的利润来源是玉石销售 ,…

    2025年5月5日
    4100
  • 即梦总算赢了一次豆包

    本文来自微信公众号:字母榜,作者:赵晋杰,编辑:王靖,题图来自:AI生成 打完与DeepSeek和腾讯元宝的AI助手之战后,字节又盯上了视频生成。 字母榜获悉,进入5月份以来,字节进一步加大了对旗下视频生成应用即梦AI的重视程度。直观表现之一是,即梦AI在苹果中国区App Store免费应用下载榜上排名急速上升。 从5月13日开始,即梦AI已经超越字节旗下豆…

    2025年5月15日
    4400
  • 推进国际化战略 A股公司加速赴港上市

    深圳商报·读创客户端记者 陈燕青 今年以来,A股公司赴港上市热潮汹涌,4月以来已有牧原股份、宁德时代、钧达股份等逾10家公司宣布赴港上市或上市进展。根据不完全统计,目前已有近40家A股公司递表或正式宣布拟赴港IPO,龙头企业带队成为常态。 牧原股份15日公告称,为深入推进国际化战略,打造国际化资本运作平台,经充分研究论证,公司拟发行H股并在港交所主板挂牌上市…

    2025年4月16日
    6400
  • 国家发改委赵辰昕:我国有非常现实的、巨大的扩大内需潜力和空间

    4月28日,国家发展改革委副主任赵辰昕在国新办新闻发布会上表示,一季度内需潜力在加快释放。如汽车、家电、数码产品、家装、厨卫、电动自行车等五大类消费品以旧换新销售额超过了5000亿元,支撑社会消费品零售总额同比增长4.6%,比去年全年提高了1.1个百分点。再比如大规模设备更新带动了全国设备工器具购置投资同比增长19%,对全部投资增长的贡献率达到64.6%。此…

    2025年4月28日
    3600
  • IPO雷达|63岁老军医领衔,海圣医疗冲击北交所IPO,实力难及A股同业,净资产收益率逐年下降

    深圳商报·读创客户端记者 马强 据北交所官网信息,2025年5月29日,浙江海圣医疗器械股份有限公司(以下简称“海圣医疗”)IPO申请获北交所受理。 招股书显示,海圣医疗本次拟公开发行股票数量不超过1129.41万股,拟募集资金为3.70亿元,保荐机构为中信证券。拟募集资金使用方面,1.74亿元用于麻醉监护急救系列医疗器械升级扩产及自动化项目,1.39亿元用…

    2025年5月30日
    2200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信