生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效

2025年6月6日-7日,第7届北京智源大会将以线上+线下联动的形式召开,6日下午推出“大模型产业CEO”主题论坛,邀请业内知名专家学者、大模型领域领军企业CEO。

北京生数科技有限公司首席执行官骆怡航发表了主题演讲——“多模态生成:从模型走向生产”,主要围绕多模态大模型,特别是视频生成在产业落地中的机遇、挑战,并分享了生数科技(Vidu)的解决方案和成果。

以下是演讲亮点:

  • 多模态大模型迎来规模化生产落地的拐点:第一,我们看到技术迭代非常迅速,音视频的生成模型无论在效果、速度、成本上都快速提升。其次,行业需求特别旺盛。第三,很多行业视频内容相关的各种产业落地节奏加快。
  • 今年包括再往后要同时具备四个条件:内容的创意,内容质量、生成的效率和生产的成本。
  • 如果具备了内容的质量好于传统方式,同时生产效率和生产成本,在我看来效率必须比传统的方式要至少百倍的提升。
  • 对于生数科技来讲,我们聚焦在多模态生成,现在主要以视频生成为主,包括音视频的部分,未来我们会延展到3D叙事空间等等。目前我们聚焦在专业的用户和企业用户,致力于把模型推动到8大行业、30大场景里面。
  • Vidu 2.0把速度极大做了提升,可以达到 5 秒技术生成。同时Vidu Q1 进一步提升,包括高清的版本,还有首尾帧,还有动漫等方向。同时对于音效还有音频我们做了深化。
  • 从Vidu上线以来,专业创作的占比增长了300%,同时里边的生成量、付费量还有使用时长都大幅提升了。对于开发者、企业客户也提升了150%,在这些开发者里边,对于一些相对专业的和要求严格的场景,互联网广告、动漫、电商等等,它的应用的占比占到了80%。

以下是演讲原文:

现场和线上的朋友们大家好,我是生数科技的骆怡航。今天这个论坛是产业论坛,我想更多的从未来的方向跟大家分享多模态大模型怎么走,从模型怎么走向生产千行百业,以及走的过程中会遇到什么问题,以及如何走得更好。

我们看到语言模型从去年有一个大的飞跃式的爆发,多模态在我看来可能晚了半拍或者一拍。但是今年我们看到飞速发展,我认为今年多模态大模型正处于规模化生产落地的拐点。

第一,我们看到技术迭代非常迅速,音视频的生成模型无论在效果、速度、成本上都快速提升。

其次,我们看到行业需求特别旺盛。传统的内容生产痛点非常多:周期长、成本高、人员需要非常专业的软件以及创意非常难等等。这些痛点是亟待解决的。

第三,我们也看到很多行业视频内容相关的各种产业落地节奏加快。去年一年,包括今年上半年,各种行业都在积极的探索,而且有些已经完全生产落地了。

在这样的场景下,我们做了一些行业侧的总结,包括了8大行业,还有30大场景。可以看到这些行业都是视频为主的内容产业。其中所有的行业基本上都是以视频内容为主去流转的,包括了内容的生产、内容的消费等等环节。我们看到传统的生产方式,在对这些场景的内容进行生产的时候,是亟待去解决一些痛点和需求的,所以可以看到生产价值是非常巨大的,而且亟待挖掘。

视频生成如果要规模化落地,对于生数科技来讲我们如何去推进呢?我认为今年包括再往后要同时具备四个条件:内容的创意,内容质量、生成的效率和生产的成本。创意部分主要还是人的部分,人的想象力,人的创意如何去发挥。其次就是内容质量、生产效率、生产成本。

生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效

这三个维度主要还是大模型的模型和产品要去推动的。如果具备了内容的质量好于传统方式,同时生产效率和生产成本,在我看来效率必须比传统的方式要至少百倍的提升。比如说以前我们做一个视频可能1万块钱,但是如果它只是降低1/10,1000块钱,但如果效果不好,大家也不会采用。但如果降低100倍,同时具备一样的效果,这样的推动力是极其大的。同时生产成本还有传统方式至少要降低1%,生产效率要提升百倍。

对于生数科技来讲,我们聚焦在多模态生成,现在主要以视频生成为主,包括音视频的部分,未来我们会延展到3D叙事空间等等。目前我们聚焦在专业的用户和企业用户,致力于把模型推动到8大行业、30大场景里面。

这些内容为什么是生产场景?因为内容除了我们所有的人可以去互动,但如果内容要去产生商业价值和消费价值的话,它可能会发布在自媒体广告、电商、动漫、文旅、教育培训、短剧影视制作等等方面。我认为这些内容的价值是商业价值的发生。

生数科技的产品我们叫Vidu,2024年2月Sora出来之后,生数的Vidu是第一个跟进的国产视频大模型。同年7月我们发布了Vidu的AI内容生产平台。在随后的半年多时间里,包括今年的上半年,我们从模型侧、产品侧还有用户侧都取得了很大的进展。模型侧包括了Vidu的1.5版本,Vidu 2.0包括Vidu Q1版本。这里回到刚才我们说的效果、效率和成本。Vidu 1.5是我们去提升效果的一个版本,通过参考图视频我们去保持多主体的一致性,使得在刚才提到的所有的商业场景里能更好地去落地保持效果。

生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效

第二,Vidu 2.0 我们把速度极大做了提升,可以达到 5 秒技术生成。同时Vidu Q1 我们进一步提升,包括高清的版本,还有首尾帧,还有动漫等方向。同时对于音效还有音频我们做了深化。从产品方面,我们目前已经把创作者个人还有个人创作的团队,我们提供 SAAS 平台企业服务,我们提供 mass 平台,包括移动端,我们具备了 API 的 APP 的方式。中国站和海外站我们从去年开始就分开,专项服务每个区域和每个国家的客户。从用户覆盖里边,截止目前我们在 200 多个国家和地区超过 3,000 万的用户,企业客户包括了刚才提到的八大行业里边 2,000 多家的客户在使用申诉科技的Vidu的产品,同时有 30 多家的生态合作伙伴也跟我们在合作,其实可以看到用户要使用产品,交流是非常重要。

因为就像我们在抖音上,大家可以去看大家拍的视频,我们再去二创,再去分享延展。同样的,对于 AI 创作来讲,我们也可以这样的方式。每天 3000 多万用户在Vidu的社区里边去寻找灵感,这些灵感里边大家可以看到包括人物画面、动效、剧情调度、创意短片教程等等,大家都可以从社区里边去学习。另外每天有数百万次的想象和创意表达,在Vidu累计超过2亿次。

大家可以看到视频,其实是有很多视频是实拍不了的,或者说很有想象力的视频是可以通过Vidu,通过 AI 的方式去生成的。同样有了短片或者素材之后,每天全球数千个完整的作品在Vidu上面投稿分享出来,供大家学习和交流。其实在这样的视频和作品的背后,其实是Vidu一直追求的理念,我们就是要把创意效率、效果和成本兼具,所以我们致力于从用户侧还有企业侧我们提供最落地的模型和产品。最新我们的Vidu Q1 版本4月 22 号今年发布之后也是登顶了榜单,但是我们先看一下视频其中提供的一些能力。

Vidu Q1 的版本在文生和图生国内的国际的两大榜单里边,领先于国内外的一些模型和产品。最后我想跟大家分享很多Vidu背后的用户的故事,其实用户为什么要选择Vidu呢?我相信他们一方面是自己的创意如何去表达,如何通过模型和产品能够让他们的想象和创意去描绘出来,同时他们更追求在效果、效率和成本上的兼顾。我们来分别看一下。首先柔术特效它其实是一个创作者,他是艺人,他自己非常喜欢动漫作品,他 3 月份发布的动漫作品一系列的连载至今已经在分发平台上有 300 万人次的观看。同时相比传统的制作方式,相比业界的传统方式其实提升了 10 倍以上。

生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效

如果大家喜欢动漫的话,可以到B站上搜索柔术特效或者这部作品的名称《观察者悖论》可以去看。另外想讲一个海外用户的故事。他是美国的作家Kimberner fish,他是一个60岁的奶奶,他有一个视频梦,因为他以前的作品全是文字作品、文字著作。他的作品有一个特点,就是非常温暖,都是以comfort去命名。有了AI之后,大家现在都看短视频、看短剧、长视频等等,如何更好的去分享他的著作呢?他一个人用Vidu去创作他的文字著作的视频介绍,他只需要拍上他作品里边的一些插图插页,就可以通过图生视频的方式把他的配套视频生产出来。

有了文本,有了文字著作,再配上这样的视频的话,非常受到它的读者,尤其是儿童读者的喜欢,他现在每天可以通过Vidu的平台去生产大量的他的著作的一些配套视频,包括以前他创作的以及未来他新写的一些著作。另外对于企业客户来讲,有很多包括市场人员、营销人员,我们在工作环境里边如何去更高效生产?我们日常可能用的更多是一些协同工具,这里边有大家的团队如何去协同,如何更批量的去生产。我们的Vidu的API被飞书集成到办公平台里边。这样的话,视频生成的功能你就可以开箱即用了,而且可以批量的去生成。

智能手机里面有我们每个人的相册,还有旅行的一些照片,可以通过图生视频的能力,我们可以一键把照片复活起来,我们一些老照片怎么去动起来,以及我们的有些照片可以一键去生成vlog,这样的方式可以极大的去丰富我们旅行或者记录的一些体验。同时广告领域我们可以看到传统的广告制作方式,比如说实拍它的整个周期特别长,包括成本特别高。我们和飞鹤一起完成了一部品牌广告,这部品牌广告是播放在电视的广告里边,它对质量和清晰度要求非常高。

相比传统的品牌广告制作,可以让我们的创意人员专注于创意本身,突破实拍的局限,在创作周期和总体成本上得到了极大的提升。另外我们也看到有些个人创作者,现在一个人就可以接一些商业广告,制作出高品质的商业广告。例如这样的一个案例是一个广告写实的场景,它对于Vidu的全功能做了一个极限的制作,利用非常短的时间制作出了这样的一个广告测试视频。

生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效

毒液刚才藏虎也提到了,我们跟毒液没有去做互动,但是我们跟索尼电影还有伯乐互动,我们去做了毒液电影的中国宣传片,以中国水墨画的风格,我们做了这样一个创意,全程我们使用首尾帧的能力去实现这样一个宣传片。针对影视行业,尤其是好莱坞的一些公司,它其实对于一些作品的质量要求可能更高,传统的一些预告片的方式基本上要从策划到最后落地可能至少需要一个月的时间。这部片子我们跟合作伙伴,我们用了十天的时间,在成本投入上基本上省了90%。同时因为视频生成的快速性,我们在半天的时间里面生成了上千支素材,供索尼电影那边去挑选,最后可以看到这样一个作品在整个中国影视行业里边去呈现。

海外其实我们也接触很多,包括刚才提到的创作者,还有一些企业的伙伴,包括好莱坞的一些动画工作室也通过Vidu去制作动漫。这样一个Arar的动作工作室,它是基于Vidu打造了一个AI的动漫工作流,它是批量的去进行创意生成,把它的时间花在整个创意的部分,把生产的周期用AI的方式来完成。

目前它跟我们一起发布了预告片,在随后的两个月的时间里面,他将会把50集的整个AI动漫做出来,这部动漫的风格就非常像好莱坞漫威的风格,也结合了亚洲动漫的一些风格,有一些特色。另外除了动漫之外,其实基于Vidu还可以做很多偏写实,包括科幻的一些作品。像这样一个创作者,他是打造了一个科幻剧场景,里边非常宏大,而且叙事部分非常精美。

上述的一些素材大家都可以,包括短片,大家可以通过Vidu的官网去访问。从公司成立至今,短短的两年时间,我们商业化大概一年的时间,我们已经服务了如上的企业客户,还有创作者。我们的目标是最终的终点,我们希望是改变千行百业里边的内容制作流程,包括内容的生产效率。我们希望是以用户的认可我们为动力,同时驱动产业变革为目标。其实还有很多的创作者做出了很好的作品,这里我们做了一个合集,让大家来看一下不同的创作者,他对不同风格的一些掌控,以及不同的创意和想象力如何发生的。

生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效

为什么可以获得用户的认可呢?我们也非常倾听用户的一些反馈,也在持续迭代,所以到现在为止,我们认为为什么能服务好这些客户?同时还有很大的距离,我们还要去提升,是因为我们从模型、产品、用户逐渐形成了一个飞轮。在这样的飞轮下,我们的团队,我们希望去做到快速响应所有的用户的需求和反馈,同时因为基模能力的通用性和广泛性,我们可以在刚才提到的八大行业里边,我们可以去广泛满足,同时除了去满足基础需求,其实很重要的一个事情。刚才我提到的生产效率要提升百倍,生产成本要降低一百倍,其实必须得深度适配。

所以我们通过基模的能力,还有场景的微调的能力,包括产品的能力,我们去满足各个行业非常复杂、非常专业的需求。从Vidu上线以来,我们专业创作的占比增长了300%,同时里边的生成量、付费量还有使用时长都大幅提升了。对于开发者、企业客户也提升了150%,在这些开发者里边,其实对于一些相对专业的和要求严格的场景,互联网广告、动漫、电商等等,它的应用的占比占到了80%。

也打一个广告,就是在下周Vidu将会再次迎来重大的升级,敬请大家关注。最后提一下我们的愿景和使命,我相信AI对于我们在座的所有的人,包括我们的工作来说,我认为不是一个替代,它其实是我们的一个伙伴。人我们是有创意和想象力了,这一部分需要我们尽情去释放。工具,Vidu来说我们希望是除了给大家带来一些互动和娱乐,我们更希望是说去赋能生产力,同时让人的想象力和创造力得以释放。谢谢大家。

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:华尔街见闻,转转请注明出处:https://www.anesthesia.org.cn/17164.html

(0)
华尔街见闻的头像华尔街见闻
上一篇 2025年6月8日 下午3:51
下一篇 2025年6月8日 下午3:52

相关推荐

  • 沙特大打价格战,两大美国页岩油巨头宣布削减资本开支,美国页岩油产量见顶?

    在以沙特为首的OPEC+宣布6月大幅增产,引发油价暴跌之后,美国页岩油巨头宣布削减资本支出。业内警告称美国页岩油产量可能已达峰值。 5月6日,据英国金融时报消息,美国页岩油巨头Diamondback Energy和Coterra Energy于当地时间5月5日均宣布,将削减2025年资本预算。具体来看: 作为美国最大油田西德克萨斯二叠纪盆地最大生产商之一的D…

    2025年5月6日
    5500
  • 看到100美元!油价多头:别被OPEC吓到

    当大家在谈论油价会跌到40或50美元时,Bison Interests首席投资官却坚定看多:认为今年油价可能触及100美元。 他表示,许多增产看起来更像是“纸面桶数”,而非真实的实际供应,石油市场依然非常紧张。 此前汇丰预测继5月和6月各增产41.1万桶/日后,OPEC+很可能在7月再度宣布类似的大规模增产。对此,媒体对油价的预测十分悲观。 另有媒体分析称,…

    2025年5月27日
    2200
  • 今年轻薄款、明年折叠机,苹果酝酿iPhone机型大变革

    轻薄款、折叠机、全面屏......苹果终于不再“挤牙膏”,一些前所未有改革要来了? 美东时间5月3日,据科技媒体The Information报道,苹果计划在今年晚些时候推出一款5.5毫米超薄的新款iPhone,并预计在2026年推出一款可折叠手机。 与此同时,苹果还将调整明年iPhone的发布节奏,计划优先在2026年秋季发布更加高端的iPhone Pro…

    2025年5月4日
    7500
  • 小米汽车“智驾”更名为“辅助驾驶”

    联合网5月5日消息,小米汽车近日调整了SU7车辆详情页面的措辞,将“智驾”更名为“辅助驾驶”。 其中,小米SU7标准版搭载的Xiaomi Pilot Pro由“小米智驾Pro”更名为“小米辅助驾驶Pro”;小米SU7 Pro、小米SU7 Max搭载的Xiaomi HAD由“小米智驾Max”更名为“小米端到端辅助驾驶”。 小米汽车官网介绍称,端到端辅助驾驶可实…

    2025年5月5日
    3100
  • 动荡期结束的高鑫零售,能否迎来「困境反转」?

    高鑫零售(6808.HK)经历了动荡的一年。 2024年3月,前欧尚中国区卖场总经理沈辉接任高鑫零售执行董事兼CEO,阿里出身的林小海卸任。 不到半年,高鑫零售就被阿里“摆上货架”。 2025年初,知名PE机构德弘资本以131.38亿元正式将其收入囊中。 随着交易的完成,原董事会主席黄明端离职,由德弘资本首席执行官华裕能接任。“陆战之王”大润发正式踏入“德弘…

    2025年5月23日
    2500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信