对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

蓝鲸新闻5月9日讯(记者 武静静)模型行业正经历前所未有地加速演进,昨日的技术高地,转瞬可能成为明日的过时概念。GPT-4 的生命周期之短,映照出技术的瞬息万变,这款曾经的标杆产品生命周期仅存 467 天,恰似大模型赛道的残酷缩影,技术迭代速度和战略窗口期被空前压缩。

从全员预训练,到All in推理,从闭源到开源,在短短的一年之内,大模型焦点快速切换。当下的2025,关键词是推理和开源。下一个是什么,谁也难以预测。

在这空前变化中,身处其中的大模型公司的感知和思考是什么。5月8日阶跃星辰在北京举行媒体沟通会,阶跃星辰创始人、CEO姜大昕接受了蓝鲸新闻等多家媒体采访,聊起了他们对大模型时代,如何在变化中保持定力的思考,以及对下一步技术发展的判断。

在多模态领域出现任何短板,都会延缓实现 AGI 的进程

从2023年4月成立到现在,这家成立仅仅两年的大模型公司,已经累计发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等全系列,在阶跃星辰 Step 系列基座模型矩阵中,多模态模型的占比已经达 7 成,所以在业内被称为"多模态卷王"。

为什么会押注多模态?姜大昕的回答是:"多模态是实现 AGI 的必经之路。在多模态领域出现任何短板,都会延缓实现 AGI 的进程。"

他提到,AGI 对标的是人类智能:人类的智能本身是多元化的,除了语言的符号智能,还包括视觉智能、空间智能和运动智能等等。这些智能的习得需要通过视觉和其他模态来进行学习。因此,要实现对标人类的 AGI,模型也必须具备处理多种模态信息的能力

此外,在应用层面来看,无论是垂直领域的应用还是 C 端应用,多模态都是必不可少。因为想让 AI 更好地理解用户所处的环境并进行更自然的交流,它需要具备"能听、能看、能说"的能力。"多模态可以让智能体充分地理解和感知这个世界。"姜大昕说。

在创立之初,阶跃星辰就规划了通往 AGI 的路线图,包括三个阶段:模拟世界—探索世界—归纳世界。在姜大昕看来,当下,整个行业的技术发展仍然处于非常陡峭的区间。

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

所以,当下,公司依旧会坚持基础大模型的研发,追求智能的上限:"行业变化太快,前两年很厉害的 GPT-4都快下架了,阶跃不想在这个过程中放弃主流增长或前进的趋势,因此会坚持做基础模型的研发。追求 AGI是我们的初心。"

视觉理解生成一体化是关键问题

实现AGI,下一步大模型的主要发展趋势是什么?

姜大昕认为,未来的模型发展将沿着增强推理能力和实现多模理解生成一体化这两个主要方向前进。

首先,是在预训练的基础模型上加入强化学习,激发推理的长思维链能力。这种强大的推理能力与多模态能力的结合,被认为是 Agent 爆发的两个必要条件之一。

此外,除了语言模型推理之外,另一个能力是如何把推理引入到多模态领域。因为 单纯的视觉理解是有限的,引入推理后,模型能够结合其感知能力和内部知识,更深入地理解复杂的场景和情况。

第二个核心趋势就是,视觉领域的理解生成一体化。这也是当下多模态领域的核心问题。"理解生成一体化是计算机视觉需要突破的一个堡垒,这对于预测下一帧、利用海量视频进行预训练、构建世界模型、实现具身智能和机器人泛化至关重要。"

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

姜大昕进一步解释:"理解生成一体化的核心定义是理解和生成由同一个模型来完成,这在文本领域(如 ChatGPT)已经实现,但在视觉领域,目前的模型在多模态领域理解和生成往往由不同的模型完成,理解生成一体化是核心问题。"

"生成需要理解来控制理解需要生成来监督",姜大昕强调,生成的内容需要理解来控制,以确保生成内容有意义和有价值,理解需要生成来监督,只有能够生成,才能知道是否真正理解。如果能够攻克这一难题,便能利用海量的视频数据进行预训练,并有望将计算机视觉的各项任务统一到一个模型之中。

尽管意义重大,视觉领域的理解生成一体化依然面临着模态复杂度高的严峻挑战,由于高维连续空间难以高效表达,目前尚未找到类似 Transformer 在文本领域那样具有突破性的、可扩展的架构。近期出现的模型,例如 GPT-4o 的图像编辑能力以及阶跃星辰的 Step 1X-Edit,被认为是理解生成一体化的初步尝试,它们需要在理解图像和指令的基础上进行内容生成,并保持对原始图像的忠实度。

据姜大昕透露,阶跃星辰正在内部探索多条技术路线,以期找到可扩展的理解生成一体化架构,实现视觉模态的"Transformer 时刻"。" 在技术路线未收敛之前,并行探索多种可能的解决方案是必要的。"

"突破可能在瞬间发生,但难以预测何时到来。"姜大昕说。

双轮驱动:超级模型+超级应用

除了技术和方向,落地与应用是另一关键议题。

阶跃星辰早在今年2月的首届生态开放日上便明确,下一步将战略聚焦智能终端 Agent 方向,并重点布局汽车、手机、具身智能、IoT 等核心应用场景。

姜大昕提到,Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力,这两个能力恰好在 2024 年的时候取得了突破性的进展。

选择智能终端方向,是因其作为用户感知与体验的延伸,能够采集环境信息,助力 Agent 理解用户所处环境及任务上下文。此外,终端亦能执行任务,未来的 Agent 有望通过自然对话简化复杂设备操作。目前,阶跃星辰正积极与手机、汽车、机器人等终端领域的头部企业合作,探索 Agent 的实际落地。

对于 AI 应用的未来走向,姜大昕向蓝鲸新闻指出,仅做应用的公司可能面临通用模型能力提升后被降维打击的风险。在关键的商业化方向上, 阶跃星辰采取的是"超级模型加上超级应用"的双轮驱动策略。

姜大昕认为,模型突破先于商业化,"通常是模型能力的突破先发生,然后才带来商业化的成熟应用。例如,GPT-3.5 的出现催生了 ChatGPT,多模融合和推理模型的进步带来了 Agent,而多模理解生成一体化(尤其是可扩展的一体化)的实现,可能会进一步解锁人形机器人泛化和构建世界模型等更大的应用和价值。"

阶跃专注于基础模型能力,但也重视应用,因为通用模型的能力需要通过应用来牵引。例如,玩具场景中孩子说话停顿的问题在通用模型中不会出现,但解决这种问题可以促进模型能力的提升。

对话阶跃星辰姜大昕:模型突破先于商业化,下一步关键是视觉领域Transformer级架构

"双轮驱动策略使得阶跃星辰能够在坚持基础模型研发,追求AGI的同时,通过与行业伙伴合作,在实际应用场景中探索和落地Agent能力,形成从模型到Agent,从云侧到端侧的生态体系,实现软硬件结合以更好地理解用户需求和完成任务。"

姜大昕展望未来:"所有终端都可能 Agent 化,将原本冰冷的设备转变为用户的智能伙伴。"

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:蓝鲸新闻,转转请注明出处:https://www.anesthesia.org.cn/10932.html

(0)
蓝鲸新闻的头像蓝鲸新闻
上一篇 2025年5月10日 上午11:59
下一篇 2025年5月10日 上午11:59

相关推荐

  • 朝鲜证实出兵俄罗斯,参与库尔斯克地区作战并取得胜利

      2025年4月28日,朝鲜官方首次确认其武装力量部队参与了俄罗斯库尔斯克地区的军事行动,并宣布胜利结束。这一消息由朝鲜劳动党中央军事委员会于27日通过书面声明发布,标志着朝鲜在俄乌冲突中的正式介入。   据朝中社报道,朝鲜此次派兵的主要目的是协助俄罗斯收复库尔斯克地区,并通过实战提升本国军队的战斗力。朝鲜此前一直对是否派兵援助俄罗斯保持低调态度,但此次声…

    2025年4月28日
    6500
  • 场面震撼!五一的桂林快忙成马六甲了 密密麻麻都是竹筏,网友:在漓江看到了“赤壁之战”!

    【五一的桂林快忙成马六甲了】5月2日,在广西桂林,有网友拍到漓江上密密麻麻的“竹筏大军”,场面震撼!网友:起猛了,“五一”假期在漓江看到了“赤壁之战”,“比马六甲海峡还忙”。据桂林市文旅局数据显示,5月1日当天,桂林阳朔全县接待游客17.13万人次,较2024年同期增长37.37%,全县酒店平均入住率达81.21%,较去年同期提升近17个百分点。桂林市区重点…

    2025年5月4日
    13500
  • 巴空军基地遭印导弹袭击 火光冲天,巴方誓言报复并击落多架印军战机

      2025年5月10日凌晨,巴基斯坦首都伊斯兰堡附近的拉瓦尔品第的努尔汗空军基地遭到印度导弹袭击。巴基斯坦三军新闻局局长乔杜里证实了此次袭击,并表示爆炸声震耳欲聋,火光冲天,整个区域陷入一片混乱。   据报道,此次袭击发生在当地时间凌晨2时左右,巴基斯坦全国上下迅速进入紧急状态。目击者称,爆炸引发的巨大冲击波震碎了附近的建筑物玻璃,许多居民惊慌失措地逃离现…

    2025年5月10日
    10500
  • 巴总理激动拍桌:我们有实力有核力量,再次凸显了巴基斯坦在地区安全局势中的重要地位

      2025年5月7日,巴基斯坦总理夏巴兹谢里夫在一次公开讲话中激动地拍桌发言,明确表示巴基斯坦不仅在常规军事力量上具备强大实力,还拥有核武器能力。这一表态引发了国内外广泛关注,并再次凸显了巴基斯坦在地区安全局势中的重要地位。   谢里夫总理的发言背景是近期印巴关系的紧张局势。此前,有部分声音认为印度在常规军事力量方面已经超越巴基斯坦,但谢里夫总理的讲话表明…

    2025年5月8日
    5700
  • 韩国五大企业集团去年销售额占GDP四成

    据报道,韩国政府部门6日消息,五大企业集团销售额约占2024年名义国内生产总值(GDP)的40%,全体大企业销售额占比将近80%。负有披露义务的92家大型企业集团(资产规模超过5万亿韩元)去年总销售额为2007.7万亿韩元(约合人民币10.4万亿元),占韩国银行(央行)所公布的去年名义GDP的78.8%。单看韩国五大企业集团,以反垄断执法机构公正交易委员会数…

    2025年5月6日
    2800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信