6月6日讯(编辑 宋子乔) 6月6日上午,在2025北京智源大会上,北京智源人工智能研究院发布了“悟界”系列大模型,宣布围绕物理AGI(通用人工智能)所做的大模型最新科研成果和布局。“悟界”系列大模型目前包含:全球首个原生多模态世界模型“悟界•Emu3”、全球首个脑科学多模态通用基础模型“悟界•见微Brainμ”、具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2。
其中,原生多模态世界模型Emu3于2024年10月发布,基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性。其核心能力在于多模态统一理解与生成,它通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。该模型支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。
何谓世界模型?
从通俗角度来看,世界模型可以被理解为,让AI像人类一样认知、理解世界并进行推理的工具。人类通过五感获取外界信息,大脑会将这些信息抽象简化为理想化的基本元素,构建成一个关于世界的“模型”,并在这个模型上进行推理和预测,以此来指导我们的行动。人工智能领域的世界模型,就是让机器学习算法去构建这样一个关于世界的“模型”。
基于世界模型的多模态和推理能力,AI能实现更自然、智能的交互。比如在智能客服领域,综合分析用户的语音、图像和文本输入,理解问题并给出准确回答;在智能教育领域,根据学生学习情况和需求,生成个性化教学内容和辅导方案。
被誉为“AI教母”的知名人工智能专家、斯坦福大学教授李飞飞,近日与硅谷顶级风险投资机构a16z的两位合伙人——马丁•卡萨多与埃里克•托伯格展开了一场深度对话。在这场对话中,李飞飞便探讨了“世界模型”的概念——这些AI系统不仅能理解和推理文字信息,还能理解与推理物理世界(尤其是3D世界)的运作规律。
可以说,打造强大的世界模型是人类通往AGI的必经之路。
值得注意的是,目前的应用端,布局世界模型最积极的是造车新势力,在小鹏、理想、华为、地平线等各个车企和平台供应商的展示中都在强调“世界模型”。
在智驾领域,世界模型代表着智能驾驶系统对物理世界的数字化理解与预测能力。各企业在智能驾驶上的竞争从过去拼车端算力和配置,已经逐渐演进到比拼云端构建的世界模型(一个能够理解物理世界规则的虚拟世界)的能力。
华泰证券认为这或将持续提升车载的芯片算力以及传感器的精度,对算法公司和主机厂技术研发能力也提出了新的要求。亿欧智库的报告则称,世界模型通过云端训练+车端蒸馅提升泛化能力,但其规模化落地仍受限于算力成本与数据质量。
平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:科创板日报,转转请注明出处:https://www.anesthesia.org.cn/16635.html