智源大会前线速写:多模态模型的“ChatGPT时刻”还未到来

智源大会前线速写:多模态模型的“ChatGPT时刻”还未到来

图片来源:视觉中国

蓝鲸新闻6月8日讯(记者 朱俊熹)回顾生成式AI的演进历程,除大语言模型的爆发外,还有一条并行推进的技术路线:多模态大模型。过去一两年间,多模态路线上先后出现OpenAI的视频生成模型Sora、4o图像生成功能等重要里程碑。但在6月6日至7日的2025北京智源大会上,业界人士的主流观点是:属于多模态的"ChatGPT时刻"尚未到来。

智源研究院院长王仲远表示,当前的多模态模型大多是对静态画面的理解,描述的是存在的事实。但人类对多模态的理解并不是基于单帧图像的描述,而是可以从一个画面预测下一个可能的画面。"当我手接近水时,可以预测我要拿水;如果不小心把它碰倒在地板上时,会预测水洒下去。如果没有盖子,地板会被水洒湿。"

在AI视频创企Sand.ai创始人兼CEO曹越看来,要想精准地预测并生成未来的视频内容,关键在于对过去视频内容的充分理解。为此,Sand.ai将主要探索方向押注在自回归这一技术路径上。当下的多模态生成领域中,DiT架构,即基于Transformer架构的扩散模型是主流选择。如果说DiT是逐步去噪来还原图像或视频,自回归则是按顺序逐帧、逐块地生成图像或视频。

曹越指出,沿着DiT架构方向会发现,随着模型大小提升,将快速达到瓶颈,需要找到可扩展的解决方案。如果将自回归的思路引入视频生成方向,可能会有显著不同的体验。其训练方式本质就是基于之前一段视频,来生成未来的一段视频。因此生成视频时长可从现在的5秒提升至几分钟,存在较大的技术提升空间。

今年4月,OpenAI研究科学家姚顺雨的一篇长帖曾引发热议。他表示,AI已进入下半场,重心将从解决问题转向定义问题。在智源大会分论坛上,AI视觉领域的明星创企Luma AI首席科学家宋佳铭直言,"上下半场"的划分更像是在描述语言模型。如果上半场是预训练,下半场是推理,目前多模态模型还未能很好地解决上半场的问题。

宋佳铭解释称,对于上半场的期望是,多模态模型能够通过一个大一统的模型,像人一样处理不同模态的任务,并且保持足够快的推理速度。这个模型应当具备多模态思维链,否则在下半场无法真正打通推理能力。

如果从多模态模型的应用落地角度来看,腾讯混元多模态生成负责人芦清林认为,上下半场的分界线并不清晰。"因为五分的模型对应五分的用法,八分的模型对应八分的用法。"他表示。一个判定信号是,专业领域的人是否开始使用这项技术。即便技术研发人员认为模型还存在很多可改进的地方,如果专业人员已经开始采用,并且觉得能在实际工作中带来提效或帮助,那么它已经达到了能带来实际改变的阶段。

字节跳动Seed图像&视频生成负责人黄伟林则分享了判断技术商业化程度的三个数据指标。一是效率数据,如用户在使用AI生图时,生成多少张图片会下载一张。二是APP上的用户留存数据。三是收入数据,他指出头部AI视频产品ARR(年度经常性收入)年底有望达到1亿美元或更多,明年将可能实现5到10倍的增长。

在技术和商业的结合层面,Sand.ai联合创始人张拯强调,应当追求有效的Scaling Law。即在扩展模型规模、提升性能时,由此带来的用户价值和经济回报是否足以覆盖所投入的资源成本。如果模型能力提升的代价过高,用户得不到对应的回报,那么从商业角度来看,这样的Scaling就是无效的。

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:蓝鲸新闻,转转请注明出处:https://www.anesthesia.org.cn/17096.html

(0)
蓝鲸新闻的头像蓝鲸新闻
上一篇 2025年6月8日 下午3:49
下一篇 2025年6月8日 下午3:49

相关推荐

  • 韩国残运会盒饭只有泡菜小菜引众怒,网友调侃称:“这盒饭比监狱的伙食还差!”

      2025年4月25日,韩国忠州市残运会期间,主办方提供的盒饭因过于简陋而引发广泛争议。据YTN电视台报道,部分运动员领取的盒饭价值12000韩元(约合人民币61元),但内容却仅有泡菜、海苔、青椒等腌制小菜,完全缺乏肉类,这与运动员每日所需的高热量饮食需求形成鲜明对比。   事件曝光后,迅速登上社交媒体热搜,许多网友对主办方的餐饮安排表示愤怒。部分运动员甚…

    2025年4月25日
    8100
  • 淘宝推出新功能,商家可直接屏蔽高退款率人群!工作人员:仅对天猫、淘宝服饰行业开放,正在内测

    近日,有网友发帖称淘宝APP推出新功能,商家可以直接屏蔽高退款率人群,引发关注。 网传淘宝商家可屏蔽高退款率人群。图/网络平台 据网传截图,淘宝商家在进行人群推广时,可在自定义推广页面设置屏蔽人群,包括100%完全屏蔽异常退款人群及高退款人群,对退款率较高人群减少曝光。 对这一新功能,有网友表示该功能对商家友好,可以明显提高淘宝商家的人群推广质量和成交率。还…

    2025年5月13日
    2600
  • 六大行官宣下调存款利率:最大降幅25个基点,一年期定存首次破1%

    蓝鲸新闻5月20日讯(记者 金磊)5 月 20 日,工商银行、农业银行、中国银行、建设银行、交通银行、邮储银行六大行均宣布下调了存款利率。 据了解,此次人民币存款利率下调是今年第一次,上一次为去年10月18日,国有大行率先集体下调人民币存款利率。其中,活期存款下调0.05个百分点至0.1%,各期限定期存款挂牌利率全线下调0.25个百分点。 通常来说,国有六大…

    2025年5月20日
    2500
  • 理想MEGA,破茧再生?

    文|科技新知 茯神 "好久不见,甚是想念。"前不久的上海车展上,李想带着回炉升级后的理想MEGA,重新站到了公众面前,与去年理想MEGA首发前夕的高调相比,如今的李想多了一份沉稳。 "非常值得看的视频,乔布斯在的话,苹果汽车应该就是这样的。"彼时的李想在朋友圈发布理想MEGA的预告宣传片时如此配文,颇有一副"教苹果造车"的姿态。 可惜天不遂人愿。理想MEGA…

    2025年5月6日
    3600
  • 女子驾车突发不适车辆失控 致1死3伤 敲响了交通安全的警钟

      2025年4月5日,深圳市宝安区发生了一起因驾驶员突发身体不适引发的交通事故。根据深圳市公安局交通警察支队的通报,事故发生在当天下午17时30分左右,地点位于宝安区宝源路与劳动路交叉路口附近。当时,一名35岁的女性司机李某驾驶小轿车行驶至此,突然身体不适,导致车辆失控,与路边的蓝色三轮车相撞,同时撞上了路边的摊位和行人,造成现场一片狼藉。   事故发生后…

    2025年4月6日
    8900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信