对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

蓝鲸新闻5月9日讯(记者 武静静)模型行业正经历前所未有地加速演进,昨日的技术高地,转瞬可能成为明日的过时概念。GPT-4 的生命周期之短,映照出技术的瞬息万变,这款曾经的标杆产品生命周期仅存 467 天,恰似大模型赛道的残酷缩影,技术迭代速度和战略窗口期被空前压缩。

从全员预训练,到All in推理,从闭源到开源,在短短的一年之内,大模型焦点快速切换。当下的2025,关键词是推理和开源。下一个是什么,谁也难以预测。

在这空前变化中,身处其中的大模型公司的感知和思考是什么。5月8日阶跃星辰在北京举行媒体沟通会,阶跃星辰创始人、CEO姜大昕接受了蓝鲸新闻等多家媒体采访,聊起了他们对大模型时代,如何在变化中保持定力的思考,以及对下一步技术发展的判断。

在多模态领域出现任何短板,都会延缓实现 AGI 的进程

从2023年4月成立到现在,这家成立仅仅两年的大模型公司,已经累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列,在阶跃星辰 Step 系列基座模型矩阵中,多模态模型的占比已经达 7 成,所以在业内被称为"多模态卷王"。

为什么会押注多模态?姜大昕的回答是:"多模态是实现 AGI 的必经之路。在多模态领域出现任何短板,都会延缓实现 AGI 的进程。"

他提到,AGI 对标的是人类智能:人类的智能本身是多元化的,除了语言的符号智能,还包括视觉智能、空间智能和运动智能等等。这些智能的习得需要通过视觉和其他模态来进行学习。因此,要实现对标人类的 AGI,模型也必须具备处理多种模态信息的能力

此外,在应用层面来看,无论是垂直领域的应用还是 C 端应用,多模态都是必不可少。因为想让 AI 更好地理解用户所处的环境并进行更自然的交流,它需要具备"能听、能看、能说"的能力。"多模态可以让智能体充分地理解和感知这个世界。"姜大昕说。

在创立之初,阶跃星辰就规划了通往 AGI 的路线图,包括三个阶段:模拟世界—探索世界—归纳世界。在姜大昕看来,当下,整个行业的技术发展仍然处于非常陡峭的区间。

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

所以,当下,公司依旧会坚持基础大模型的研发,追求智能的上限:"行业变化太快,前两年很厉害的 GPT-4都快下架了,阶跃不想在这个过程中放弃主流增长或前进的趋势,因此会坚持做基础模型的研发。追求 AGI是我们的初心。"

视觉理解生成一体化是关键问题

实现AGI,下一步大模型的主要发展趋势是什么?

姜大昕认为,未来的模型发展将沿着增强推理能力和实现多模理解生成一体化这两个主要方向前进。

首先,是在预训练的基础模型上加入强化学习,激发推理的长思维链能力。这种强大的推理能力与多模态能力的结合,被认为是 Agent 爆发的两个必要条件之一。

此外,除了语言模型推理之外,另一个能力是如何把推理引入到多模态领域。因为 单纯的视觉理解是有限的,引入推理后,模型能够结合其感知能力和内部知识,更深入地理解复杂的场景和情况。

第二个核心趋势就是,视觉领域的理解生成一体化。这也是当下多模态领域的核心问题。"理解生成一体化是计算机视觉需要突破的一个堡垒,这对于预测下一帧、利用海量视频进行预训练、构建世界模型、实现具身智能和机器人泛化至关重要。"

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

姜大昕进一步解释:"理解生成一体化的核心定义是理解和生成由同一个模型来完成,这在文本领域(如 ChatGPT)已经实现,但在视觉领域,目前的模型在多模态领域理解和生成往往由不同的模型完成,理解生成一体化是核心问题。"

"生成需要理解来控制理解需要生成来监督",姜大昕强调,生成的内容需要理解来控制,以确保生成内容有意义和有价值,理解需要生成来监督,只有能够生成,才能知道是否真正理解。如果能够攻克这一难题,便能利用海量的视频数据进行预训练,并有望将计算机视觉的各项任务统一到一个模型之中。

尽管意义重大,视觉领域的理解生成一体化依然面临着模态复杂度高的严峻挑战,由于高维连续空间难以高效表达,目前尚未找到类似 Transformer 在文本领域那样具有突破性的、可扩展的架构。近期出现的模型,例如 GPT-4o 的图像编辑能力以及阶跃星辰的 Step 1X-Edit,被认为是理解生成一体化的初步尝试,它们需要在理解图像和指令的基础上进行内容生成,并保持对原始图像的忠实度。

据姜大昕透露,阶跃星辰正在内部探索多条技术路线,以期找到可扩展的理解生成一体化架构,实现视觉模态的"Transformer 时刻"。" 在技术路线未收敛之前,并行探索多种可能的解决方案是必要的。"

"突破可能在瞬间发生,但难以预测何时到来。"姜大昕说。

双轮驱动:超级模型+超级应用

除了技术和方向,落地与应用是另一关键议题。

阶跃星辰早在今年2月的首届生态开放日上便明确,下一步将战略聚焦智能终端 Agent 方向,并重点布局汽车、手机、具身智能、IoT 等核心应用场景。

姜大昕提到,Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力,这两个能力恰好在 2024 年的时候取得了突破性的进展。

选择智能终端方向,是因其作为用户感知与体验的延伸,能够采集环境信息,助力 Agent 理解用户所处环境及任务上下文。此外,终端亦能执行任务,未来的 Agent 有望通过自然对话简化复杂设备操作。目前,阶跃星辰正积极与手机、汽车、机器人等终端领域的头部企业合作,探索 Agent 的实际落地。

对于 AI 应用的未来走向,姜大昕向蓝鲸新闻指出,仅做应用的公司可能面临通用模型能力提升后被降维打击的风险。在关键的商业化方向上, 阶跃星辰采取的是"超级模型加上超级应用"的双轮驱动策略。

姜大昕认为,模型突破先于商业化,"通常是模型能力的突破先发生,然后才带来商业化的成熟应用。例如,GPT-3.5 的出现催生了 ChatGPT,多模融合和推理模型的进步带来了 Agent,而多模理解生成一体化(尤其是可扩展的一体化)的实现,可能会进一步解锁人形机器人泛化和构建世界模型等更大的应用和价值。"

阶跃专注于基础模型能力,但也重视应用,因为通用模型的能力需要通过应用来牵引。例如,玩具场景中孩子说话停顿的问题在通用模型中不会出现,但解决这种问题可以促进模型能力的提升。

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

"双轮驱动策略使得阶跃星辰能够在坚持基础模型研发,追求AGI的同时,通过与行业伙伴合作,在实际应用场景中探索和落地Agent能力,形成从模型到Agent,从云侧到端侧的生态体系,实现软硬件结合以更好地理解用户需求和完成任务。"

姜大昕展望未来:"所有终端都可能 Agent 化,将原本冰冷的设备转变为用户的智能伙伴。"

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:蓝鲸新闻,转转请注明出处:https://www.anesthesia.org.cn/10932.html

(0)
蓝鲸新闻的头像蓝鲸新闻
上一篇 2025年5月10日 上午11:59
下一篇 2025年5月10日 上午11:59

相关推荐

  • 泽连斯基用一份协议警告特朗普普京:乌克兰拒绝妥协,美乌矿产协议面临破裂风险

      近日,围绕乌克兰与美国的矿产协议问题,乌克兰总统泽连斯基与美国总统特朗普之间的紧张关系进一步升级。泽连斯基试图通过一份新的协议向特朗普和俄罗斯总统普京发出警告,表明乌克兰不会轻易妥协,同时试图在国际舞台上争取更大的话语权。   根据多方消息,泽连斯基在与特朗普的会晤中明确表示,如果乌克兰退出与美国的矿产协议,将面临非常大的麻烦。泽连斯基还指责普京多次违背…

    2025年5月2日
    2500
  • 舆论一边倒,美团咋就这么不堪一击?

    文:互联网江湖 刘致呈 最近,舆论场上骂美团的声音很多,而且是一边倒。 面对这个事,内心憋着一腔废话,本来想蹭个热点跟一篇,想想算了,极端民粹,稍有不慎,就是万丈深渊。 如今,稍稍消停了些,没憋住,还是来唠唠吧。 咱们先来聊一聊,美团为啥这么招黑? 只是单纯的因为压榨骑手跟商家吗?你看到的只是表象,只是情绪面,而不是基本面。 美团舆论基本面:短视频时代,"基…

    2025年5月2日
    2200
  • 胡塞武装称袭击美航母并击落无人机 再次凸显中东地区复杂的安全局势

      2025年3月26日,也门胡塞武装发言人叶海亚萨雷亚发表电视讲话,声称其导弹部队、无人机部队和海军部队在数小时前袭击了美国哈里杜鲁门号航空母舰及其他军舰,并使用多架无人机袭击了以色列雅法地区的军事目标。胡塞武装表示,此次袭击是对美国及其盟友近期对也门的空袭行动的报复,同时强调其行动旨在削弱以色列在加沙地区的军事行动。   然而,美国方面对此予以否认。美国…

    2025年4月23日
    3900
  • 孙简,已任省领导

    吉林省政府网站消息,4月25日,省委副书记、省长胡玉亭主持召开省政府常务会议。蔡东、刘凯、郭灵计、孙简、刘伟参加会议。 以上信息显示,原任吉林通化市委书记的孙简已任吉林省政府领导。 孙简(资料图 图源:吉林日报) 公开资料显示,孙简,男,1972年2月出生,江苏无锡人,经济学博士,高级工程师,1994年于北京工业大学获工学学士学位,2005年于清华大学经济管…

    2025年4月26日
    8600
  • 南华期货一季度营收“腰斩”净利微增,冲刺A+H上市“押宝”境外业务

    (图片来源:视觉中国) 蓝鲸新闻4月26日讯(记者 王婉莹)近日,正在冲刺A+H两地上市的南华期货(603093.SH)披露2025年一季报。报告期内,公司营业收入同比"腰斩"46.2%至5.34亿元,归母净利润仅微增0.13%至8573.83万元。 公司在公告中表示,营收"腰斩"主要2025年开始对大宗商品交易等业务采用净额法确认收入。不过该项变动对净利润…

    2025年4月26日
    2100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信