对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

蓝鲸新闻5月9日讯(记者 武静静)模型行业正经历前所未有地加速演进,昨日的技术高地,转瞬可能成为明日的过时概念。GPT-4 的生命周期之短,映照出技术的瞬息万变,这款曾经的标杆产品生命周期仅存 467 天,恰似大模型赛道的残酷缩影,技术迭代速度和战略窗口期被空前压缩。

从全员预训练,到All in推理,从闭源到开源,在短短的一年之内,大模型焦点快速切换。当下的2025,关键词是推理和开源。下一个是什么,谁也难以预测。

在这空前变化中,身处其中的大模型公司的感知和思考是什么。5月8日阶跃星辰在北京举行媒体沟通会,阶跃星辰创始人、CEO姜大昕接受了蓝鲸新闻等多家媒体采访,聊起了他们对大模型时代,如何在变化中保持定力的思考,以及对下一步技术发展的判断。

在多模态领域出现任何短板,都会延缓实现 AGI 的进程

从2023年4月成立到现在,这家成立仅仅两年的大模型公司,已经累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列,在阶跃星辰 Step 系列基座模型矩阵中,多模态模型的占比已经达 7 成,所以在业内被称为"多模态卷王"。

为什么会押注多模态?姜大昕的回答是:"多模态是实现 AGI 的必经之路。在多模态领域出现任何短板,都会延缓实现 AGI 的进程。"

他提到,AGI 对标的是人类智能:人类的智能本身是多元化的,除了语言的符号智能,还包括视觉智能、空间智能和运动智能等等。这些智能的习得需要通过视觉和其他模态来进行学习。因此,要实现对标人类的 AGI,模型也必须具备处理多种模态信息的能力

此外,在应用层面来看,无论是垂直领域的应用还是 C 端应用,多模态都是必不可少。因为想让 AI 更好地理解用户所处的环境并进行更自然的交流,它需要具备"能听、能看、能说"的能力。"多模态可以让智能体充分地理解和感知这个世界。"姜大昕说。

在创立之初,阶跃星辰就规划了通往 AGI 的路线图,包括三个阶段:模拟世界—探索世界—归纳世界。在姜大昕看来,当下,整个行业的技术发展仍然处于非常陡峭的区间。

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

所以,当下,公司依旧会坚持基础大模型的研发,追求智能的上限:"行业变化太快,前两年很厉害的 GPT-4都快下架了,阶跃不想在这个过程中放弃主流增长或前进的趋势,因此会坚持做基础模型的研发。追求 AGI是我们的初心。"

视觉理解生成一体化是关键问题

实现AGI,下一步大模型的主要发展趋势是什么?

姜大昕认为,未来的模型发展将沿着增强推理能力和实现多模理解生成一体化这两个主要方向前进。

首先,是在预训练的基础模型上加入强化学习,激发推理的长思维链能力。这种强大的推理能力与多模态能力的结合,被认为是 Agent 爆发的两个必要条件之一。

此外,除了语言模型推理之外,另一个能力是如何把推理引入到多模态领域。因为 单纯的视觉理解是有限的,引入推理后,模型能够结合其感知能力和内部知识,更深入地理解复杂的场景和情况。

第二个核心趋势就是,视觉领域的理解生成一体化。这也是当下多模态领域的核心问题。"理解生成一体化是计算机视觉需要突破的一个堡垒,这对于预测下一帧、利用海量视频进行预训练、构建世界模型、实现具身智能和机器人泛化至关重要。"

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

姜大昕进一步解释:"理解生成一体化的核心定义是理解和生成由同一个模型来完成,这在文本领域(如 ChatGPT)已经实现,但在视觉领域,目前的模型在多模态领域理解和生成往往由不同的模型完成,理解生成一体化是核心问题。"

"生成需要理解来控制理解需要生成来监督",姜大昕强调,生成的内容需要理解来控制,以确保生成内容有意义和有价值,理解需要生成来监督,只有能够生成,才能知道是否真正理解。如果能够攻克这一难题,便能利用海量的视频数据进行预训练,并有望将计算机视觉的各项任务统一到一个模型之中。

尽管意义重大,视觉领域的理解生成一体化依然面临着模态复杂度高的严峻挑战,由于高维连续空间难以高效表达,目前尚未找到类似 Transformer 在文本领域那样具有突破性的、可扩展的架构。近期出现的模型,例如 GPT-4o 的图像编辑能力以及阶跃星辰的 Step 1X-Edit,被认为是理解生成一体化的初步尝试,它们需要在理解图像和指令的基础上进行内容生成,并保持对原始图像的忠实度。

据姜大昕透露,阶跃星辰正在内部探索多条技术路线,以期找到可扩展的理解生成一体化架构,实现视觉模态的"Transformer 时刻"。" 在技术路线未收敛之前,并行探索多种可能的解决方案是必要的。"

"突破可能在瞬间发生,但难以预测何时到来。"姜大昕说。

双轮驱动:超级模型+超级应用

除了技术和方向,落地与应用是另一关键议题。

阶跃星辰早在今年2月的首届生态开放日上便明确,下一步将战略聚焦智能终端 Agent 方向,并重点布局汽车、手机、具身智能、IoT 等核心应用场景。

姜大昕提到,Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力,这两个能力恰好在 2024 年的时候取得了突破性的进展。

选择智能终端方向,是因其作为用户感知与体验的延伸,能够采集环境信息,助力 Agent 理解用户所处环境及任务上下文。此外,终端亦能执行任务,未来的 Agent 有望通过自然对话简化复杂设备操作。目前,阶跃星辰正积极与手机、汽车、机器人等终端领域的头部企业合作,探索 Agent 的实际落地。

对于 AI 应用的未来走向,姜大昕向蓝鲸新闻指出,仅做应用的公司可能面临通用模型能力提升后被降维打击的风险。在关键的商业化方向上, 阶跃星辰采取的是"超级模型加上超级应用"的双轮驱动策略。

姜大昕认为,模型突破先于商业化,"通常是模型能力的突破先发生,然后才带来商业化的成熟应用。例如,GPT-3.5 的出现催生了 ChatGPT,多模融合和推理模型的进步带来了 Agent,而多模理解生成一体化(尤其是可扩展的一体化)的实现,可能会进一步解锁人形机器人泛化和构建世界模型等更大的应用和价值。"

阶跃专注于基础模型能力,但也重视应用,因为通用模型的能力需要通过应用来牵引。例如,玩具场景中孩子说话停顿的问题在通用模型中不会出现,但解决这种问题可以促进模型能力的提升。

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

"双轮驱动策略使得阶跃星辰能够在坚持基础模型研发,追求AGI的同时,通过与行业伙伴合作,在实际应用场景中探索和落地Agent能力,形成从模型到Agent,从云侧到端侧的生态体系,实现软硬件结合以更好地理解用户需求和完成任务。"

姜大昕展望未来:"所有终端都可能 Agent 化,将原本冰冷的设备转变为用户的智能伙伴。"

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:蓝鲸新闻,转转请注明出处:https://www.anesthesia.org.cn/10932.html

(0)
蓝鲸新闻的头像蓝鲸新闻
上一篇 2025年5月10日 上午11:59
下一篇 2025年5月10日 上午11:59

相关推荐

  • 全球奢侈品两年流失五千万客户?奢侈品是要卖不动了吗?

    文|江瀚视野 说起奢侈品,相信大多数的中国消费者都不太会陌生,这些年伴随着中国经济的高速发展,消费奢侈品已经成为了不少白领的共同选择,就在最近却传出全球奢侈品两年流失了将近五千万用户,让人不禁疑惑这奢侈品是要卖不动了吗? 一、全球奢侈品两年流失五千万客户? 据21世纪经济报道的消息,近日,欧洲股市开盘之后,法国奢侈品巨头LVMH(酩悦·轩尼诗-路易·威登集团…

    2025年5月9日
    3900
  • 中山大学一原系主任逝世,享年99岁

    南都记者今天(4月24日)获悉,23日晚,中山大学哲学系原系主任李锦全逝世,享年99岁。 李锦全教授主要从事中国哲学思想史研究,曾与萧萐父共同主编经典教材《中国哲学史》,编著《简明中国思想史》《简明中国哲学史》等。2024年中大百年校庆之际,李锦全还曾接受校方的采访拍摄,是学者中年纪最大、访谈次数最多的。 李锦全 李锦全出生于1926年,广东东莞人。据他晚年…

    2025年4月24日
    3800
  • 绍兴又有2场演唱会,定档!

    近日,歌手王铮亮2025巡回演唱会绍兴站官宣定档,今年7月19日晚在绍兴市奥体中心体育馆登场。这一消息引来了大量歌迷关注。而同在今年5月31日到6月1日,被誉为“国民歌王”的周华健也将前来市奥体中心激情开唱。接二连三的音乐盛事,让绍兴再度成为众人的焦点。歌手与乐迷的双向奔赴,也将再次为本地文旅事业添上一把火。 一票难求盛况重现 作为今年本地演唱会的“开门红”…

    2025年5月15日
    1600
  • 桂林银行IPO辅导近20个月进入第七期,两大问题迟迟未能解决成绊脚石

    蓝鲸新闻4月26日讯(记者 金磊)近日,中信证券发布关于桂林银行股份有限公司(以下简称"桂林银行")首次公开发行股票并上市辅导工作进展报告(第七期)。 作为广西首家资产规模突破5000亿元的城商行,桂林银行在广西省内的覆盖率极高,12个地级市设立分支机构,营业网点(包括支行、社区/小微支行、控股村镇银行)近千家,被地方寄予厚望。 截至2024年6月末,桂林银…

    2025年4月26日
    4100
  • 快手、字节“AI军备竞赛”:一场没有赢家的技术泡沫秀?

    文|蛇眼财经v 2024年初,OpenAI公布的Sora AI视频生成模型,震撼了国产大模型行业。随后国产厂商集体发力视频大模型,快手发布视频生成大模型可灵,字节跳动发布豆包视频生成模型,正式打响了国内AI视频生成领域第一枪。 众多企业匆忙入局,只为在这片新兴市场中抢占先机,却往往忽视了技术成熟度与应用规范的打磨。 以社交平台上泛滥的AI伪造视频为例,全红婵…

    2025年5月6日
    2100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信