对话阶跃星辰姜大昕：模型突破先于商业化，下一步关键是视觉领域Transformer级架构

蓝鲸新闻5月9日讯（记者武静静）大模型行业正经历前所未有地加速演进，昨日的技术高地，转瞬可能成为明日的过时概念。GPT-4 的生命周期之短，映照出技术的瞬息万变，这款曾经的标杆产品生命周期仅存 467 天，恰似大模型赛道的残酷缩影，技术迭代速度和战略窗口期被空前压缩。

从全员预训练，到All in推理，从闭源到开源，在短短的一年之内，大模型焦点快速切换。当下的2025，关键词是推理和开源。下一个是什么，谁也难以预测。

在这空前变化中，身处其中的大模型公司的感知和思考是什么。5月8日阶跃星辰在北京举行媒体沟通会，阶跃星辰创始人、CEO姜大昕接受了蓝鲸新闻等多家媒体采访，聊起了他们对大模型时代，如何在变化中保持定力的思考，以及对下一步技术发展的判断。

在多模态领域出现任何短板，都会延缓实现 AGI 的进程

从2023年4月成立到现在，这家成立仅仅两年的大模型公司，已经累计发布了22款自研基座模型，覆盖文字、语音、图像、视频、音乐、推理等全系列，在阶跃星辰 Step 系列基座模型矩阵中，多模态模型的占比已经达 7 成，所以在业内被称为"多模态卷王"。

为什么会押注多模态？姜大昕的回答是："多模态是实现 AGI 的必经之路。在多模态领域出现任何短板，都会延缓实现 AGI 的进程。"

他提到，AGI 对标的是人类智能：人类的智能本身是多元化的，除了语言的符号智能，还包括视觉智能、空间智能和运动智能等等。这些智能的习得需要通过视觉和其他模态来进行学习。因此，要实现对标人类的 AGI，模型也必须具备处理多种模态信息的能力。

此外，在应用层面来看，无论是垂直领域的应用还是 C 端应用，多模态都是必不可少。因为想让 AI 更好地理解用户所处的环境并进行更自然的交流，它需要具备"能听、能看、能说"的能力。"多模态可以让智能体充分地理解和感知这个世界。"姜大昕说。

在创立之初，阶跃星辰就规划了通往 AGI 的路线图，包括三个阶段：模拟世界—探索世界—归纳世界。在姜大昕看来，当下，整个行业的技术发展仍然处于非常陡峭的区间。

所以，当下，公司依旧会坚持基础大模型的研发，追求智能的上限："行业变化太快，前两年很厉害的 GPT-4都快下架了，阶跃不想在这个过程中放弃主流增长或前进的趋势，因此会坚持做基础模型的研发。追求 AGI是我们的初心。"

视觉理解生成一体化是关键问题

实现AGI，下一步大模型的主要发展趋势是什么？

姜大昕认为，未来的模型发展将沿着增强推理能力和实现多模理解生成一体化这两个主要方向前进。

首先，是在预训练的基础模型上加入强化学习，激发推理的长思维链能力。这种强大的推理能力与多模态能力的结合，被认为是 Agent 爆发的两个必要条件之一。

此外，除了语言模型推理之外，另一个能力是如何把推理引入到多模态领域。因为单纯的视觉理解是有限的，引入推理后，模型能够结合其感知能力和内部知识，更深入地理解复杂的场景和情况。

第二个核心趋势就是，视觉领域的理解生成一体化。这也是当下多模态领域的核心问题。"理解生成一体化是计算机视觉需要突破的一个堡垒，这对于预测下一帧、利用海量视频进行预训练、构建世界模型、实现具身智能和机器人泛化至关重要。"

姜大昕进一步解释："理解生成一体化的核心定义是理解和生成由同一个模型来完成，这在文本领域（如 ChatGPT）已经实现，但在视觉领域，目前的模型在多模态领域理解和生成往往由不同的模型完成，理解生成一体化是核心问题。"

"生成需要理解来控制。理解需要生成来监督"，姜大昕强调，生成的内容需要理解来控制，以确保生成内容有意义和有价值，理解需要生成来监督，只有能够生成，才能知道是否真正理解。如果能够攻克这一难题，便能利用海量的视频数据进行预训练，并有望将计算机视觉的各项任务统一到一个模型之中。

尽管意义重大，视觉领域的理解生成一体化依然面临着模态复杂度高的严峻挑战，由于高维连续空间难以高效表达，目前尚未找到类似 Transformer 在文本领域那样具有突破性的、可扩展的架构。近期出现的模型，例如 GPT-4o 的图像编辑能力以及阶跃星辰的 Step 1X-Edit，被认为是理解生成一体化的初步尝试，它们需要在理解图像和指令的基础上进行内容生成，并保持对原始图像的忠实度。

据姜大昕透露，阶跃星辰正在内部探索多条技术路线，以期找到可扩展的理解生成一体化架构，实现视觉模态的"Transformer 时刻"。" 在技术路线未收敛之前，并行探索多种可能的解决方案是必要的。"

"突破可能在瞬间发生，但难以预测何时到来。"姜大昕说。

双轮驱动：超级模型+超级应用

除了技术和方向，落地与应用是另一关键议题。

阶跃星辰早在今年2月的首届生态开放日上便明确，下一步将战略聚焦智能终端 Agent 方向，并重点布局汽车、手机、具身智能、IoT 等核心应用场景。

姜大昕提到，Agent 爆发需要两个必要的条件，一个是多模态的能力，另外一个是慢思考的能力，这两个能力恰好在 2024 年的时候取得了突破性的进展。

选择智能终端方向，是因其作为用户感知与体验的延伸，能够采集环境信息，助力 Agent 理解用户所处环境及任务上下文。此外，终端亦能执行任务，未来的 Agent 有望通过自然对话简化复杂设备操作。目前，阶跃星辰正积极与手机、汽车、机器人等终端领域的头部企业合作，探索 Agent 的实际落地。

对于 AI 应用的未来走向，姜大昕向蓝鲸新闻指出，仅做应用的公司可能面临通用模型能力提升后被降维打击的风险。在关键的商业化方向上，阶跃星辰采取的是"超级模型加上超级应用"的双轮驱动策略。

姜大昕认为，模型突破先于商业化，"通常是模型能力的突破先发生，然后才带来商业化的成熟应用。例如，GPT-3.5 的出现催生了 ChatGPT，多模融合和推理模型的进步带来了 Agent，而多模理解生成一体化（尤其是可扩展的一体化）的实现，可能会进一步解锁人形机器人泛化和构建世界模型等更大的应用和价值。"

阶跃专注于基础模型能力，但也重视应用，因为通用模型的能力需要通过应用来牵引。例如，玩具场景中孩子说话停顿的问题在通用模型中不会出现，但解决这种问题可以促进模型能力的提升。

"双轮驱动策略使得阶跃星辰能够在坚持基础模型研发，追求AGI的同时，通过与行业伙伴合作，在实际应用场景中探索和落地Agent能力，形成从模型到Agent，从云侧到端侧的生态体系，实现软硬件结合以更好地理解用户需求和完成任务。"

姜大昕展望未来："所有终端都可能 Agent 化，将原本冰冷的设备转变为用户的智能伙伴。"

平台声明：该文观点仅代表作者本人，联合网系信息发布平台。发布者：蓝鲸新闻，转转请注明出处：https://www.anesthesia.org.cn/10932.html

对话阶跃星辰姜大昕：模型突破先于商业化，下一步关键是视觉领域Transformer级架构

发表回复

联系我们

400-800-8888

对话阶跃星辰姜大昕：模型突破先于商业化，下一步关键是视觉领域Transformer级架构

相关推荐

朝鲜证实出兵俄罗斯，参与库尔斯克地区作战并取得胜利

场面震撼！五一的桂林快忙成马六甲了 密密麻麻都是竹筏，网友：在漓江看到了“赤壁之战”！

巴空军基地遭印导弹袭击 火光冲天，巴方誓言报复并击落多架印军战机

巴总理激动拍桌:我们有实力有核力量，再次凸显了巴基斯坦在地区安全局势中的重要地位

韩国五大企业集团去年销售额占GDP四成

发表回复

联系我们

400-800-8888

场面震撼！五一的桂林快忙成马六甲了密密麻麻都是竹筏，网友：在漓江看到了“赤壁之战”！

巴空军基地遭印导弹袭击火光冲天，巴方誓言报复并击落多架印军战机