Manus都点赞的Claude 4,究竟好在哪儿?

Manus都点赞的Claude 4,究竟好在哪儿?

本文来自微信公众号:直面AI,作者:涯角,编辑:肖阳,题图来自:AI生成

目睹完今天 Claude 4 的发布会全程,我只看到了一句话 ——大模型正在范式转变, AI智能体时代真的来了

Manus都点赞的Claude 4,究竟好在哪儿?

AI 编程的唯一真神 Claude 3.7 Sonnet,终于被 Antrhopic 的下一代 AI 大模型——Claude Opus 4 和 Claude Sonnet 4 彻底淘汰掉了。各国网友对此有非常直观的感受,比如有人在一手实测中疯狂夸赞 Claude 4:“它一下子就能写出 8000 行代码”

Manus都点赞的Claude 4,究竟好在哪儿?

除了 Claude 4 的推出之外,他们还顺手给了几个新智能体时代的功能拓展。

我们先从大模型讲起。

一、Claude 4 瞄准了 AI 智能体编程

这次,他们推出的 Claude Opus 4 和 Claude Sonnet 4 这两款模型都是混合模型:及时响应与深度思考并重

可见,混合思考架构已然成为未来大模型的趋势,用户需要在简单的需求下获得更快的回复,在复杂要求中获得更好的生成结果。两款模型在性能、功能和应用场景上有了显著提升,价格却与之前的 Opus 和 Sonnet 模型保持一致,内部优化做得很好。

先从评分开始看起。Claude 4 模型在用于评估真实软件工程任务性能的 SWE-bench Verified 基准上堪称“遥遥领先”。值得一提的是,在本次评分对比中,Claude 4 特意被拉来与 OpenAI 前几天刚刚高调发布的“最强 AI 编程智能体 Codex-1”进行正面较量

Manus都点赞的Claude 4,究竟好在哪儿?

Claude Opus 4 在编码、研究、写作和科学发现等人类复杂性高的任务方向,拓展了边界。比如,在编码领域它被 Cursor 称为顶尖技术,显著提升复杂代码库的理解能力,适合处理复杂的编程任务。Cognition则强调Opus 4已经能够解决其他模型无法应对的复杂任务。

Claude Sonnet 4 将“天赋”融入日常使用场景,这款均衡型模型在内部和外部应用中兼顾了性能与效率,虽在多数领域不及 Opus 4,但提供了能力与实用性的最佳结合。它非常适合需要自主性的场景。iGent 的报告指出,Sonnet 4 在自主开发多功能应用方面表现惊艳,错误率从 20% 骤降至几乎为零。

在下面这张综合基准测试评分表中,Claude 4 与其他市场主流大模型在编程、推理、多模态能力、智能体任务方面都拉开了一定差距。

Manus都点赞的Claude 4,究竟好在哪儿?

有趣的一点是,Anthropic 将最左侧的数个基准测试名称中都加入了“Agentic”。

2025 是 AI 智能体时代这一说法,再次被确认。

在 Anthropic 的官方发布中,有很大的篇幅着重介绍了 Claude 4 系列在“复杂项目”构建中的震撼级能力。其中,官方着重引用了 Github Copilot、iGent,甚至是 Manus 等平台的反馈。日本一家名叫乐天得企业,甚至让Claude Opus 4独立编程7h,团队自己都有些惊讶。

前段时间刚一问世就被网络平台誉为“上帝之手”的 Manus 则在报告中大赞 Claude Sonnet 4,称它复杂指令遵循能力和输出的美观度非常高。

Manus都点赞的Claude 4,究竟好在哪儿?

可以预见的是,目前智能体赛道的各个选手将会第一时间集成 Claude 4,因为它相对于之前的 Claude 模型在智能体任务中有了太多的改进。

比如:

1. Opus 4 和 Sonnet 4 不再像 Sonnet 3.7 那样爱走捷径和漏洞了,这种不正常的行为发生率直接降低了 65%。

2. Opus 4 也迅速跟进了“记忆增强”,现在它可以更好地执行长期任务了。

3. 使用小型模型压缩冗长的思考过程,自己去做思考摘要。

Manus都点赞的Claude 4,究竟好在哪儿?
图注:Claude Opus 4 在玩《宝可梦时》自主记录笔记。

二、Claude 4 其实是 LLM + Agent 的混合体?

除了 Claude 4 发布之外,整场发布会的另一个侧重点是:Claude 代码已经发布。用户已经能够通过终端、IDE (VS Code 和 JetBrains)及通过 Claude 代码 SDK 后台将 Claude 融入开发流程。用户可以在终端中直接利用 Claude,瞬间搜索百万行代码库。

Manus都点赞的Claude 4,究竟好在哪儿?

在官方介绍中,Claude Code搭载 Claude Opus 4,可以通过智能体搜索全面理解代码库,无需手动选择上下文即可协调多个文件更改,无缝融入工作流,直接运行于终端。

Manus都点赞的Claude 4,究竟好在哪儿?

只需在 IDE 终端运行 Claude 代码即可安装,可扩展的 Claude 代码 SDK 还能让用户轻松“打造自定义智能体和应用”。Anthropic 给想要构建智能体的用户们又打上了一剂强心针。

Manus都点赞的Claude 4,究竟好在哪儿?

Anthropic 还发布了几个面向智能体的新功能:代码执行工具、MCP 连接器、文件 API,以及最多可缓存一小时提示词的能力,让 Claude 4 几乎成为了智能体专精模型。在我看来,这就是 Anthropic 在 AI 下半程“智能体入口争夺战”中的大动作。允许模型将推理与外部资源结合的设计,使Claude 4 架构更像是一个 LLM+Agent 的混合体

可以这么说,整场发布会看下来,Claude 4 几乎是将自己确立为“AI 智能体时代”最能用也是最好用的大模型。

除了技术侧内容,Anthropic 在安全上的操作一直都非常令人“印象深刻”,封号封的各个社区怨声载道。官方这回依旧强调了这些模型都经过了广泛的测试和评估,比如他们用了ASL-3 安全分类,在这个风险标准下:“AI 系统具有显著增加灾难性滥用风险”。

他们还是沿袭了Anthropic的标志性安全策略——“宪法AI”(Constitutional AI)。该方法为模型嵌入了一套“宪法”原则,通过额外的AI模型对用户的输入和模型的输出进行再度扫描,检查是否有“坏”的内容,决定是否放行。这回,Anthropic放出来的模型卡PDF中足足有123页,其中大部分仍然是在专注于AI安全的测试。

Manus都点赞的Claude 4,究竟好在哪儿?

比如,Anthropic决定根据 AI 安全级别 3 标准发布 Claude Opus 4,根据 AI 安全级别 2 标准发布 Claude Sonnet 4,分级分的非常精准。

但是,现在的外网针对 Claude 4“过于高”的安全措施的讨论,几乎乱成了一锅粥。因为有网友似乎基于Claude给出的系统卡文件爆料:Claude 4 会检测用户内容,并自主“报警”……

Manus都点赞的Claude 4,究竟好在哪儿?

虽然暂无法确定这些爆料是否真实,但也确实反映了大家认为 Claude 4 的安全措施真的太过于严格了,甚至到了可能影响用户体验或功能性的地步。毕竟,国内的Claude使用者已经流行起了“打一枪,换一个地”的使用策略。

三、Claude 4 在实测中全面提升

目前各个社区、各个国家的网友全部在疯狂测试这款即将取代 Claude 3.7 Sonnet 的大模型。为了支撑智能体中常常需要的长序列复杂处理任务,具有美感输出能力且超强的 AI 编程能力的大模型仍然是极度稀缺的。Claude 4 系列只是看前方无人在,顺势补缺而已。

那么说到底,Claude 4 面对复杂性任务,表现到底有多超纲?

下面来看看全网实测案例:

Claude 4 与 Blender MCP 的连接,让产品 3D 模型设计几乎有了质的飞跃。像是有网友使用 Claude 4 和 Blender 通过 MCP 联动制作了日本清水寺的 3D 模型。这回的 Claude 4 相比于前代 Claude 3.7,编程时间大幅减少,全程无需“人类陪伴”,AI 的幻觉发生率也下降了很多。

Manus都点赞的Claude 4,究竟好在哪儿?

甚至还有网友使用 Claude Opus 4 制作了类似 Bemani 2DX 风格的游戏。不仅重现了经典的音乐游戏体验,还融入了许多创新元素,提升了游戏的可玩性和趣味性。

您目前设备暂不支持播放

Claude 4 在面对复杂任务的处理上十分得心应手。比如有网友输入提示词:用立体相机拍摄物体,推测 3D 空间坐标,并通过交互式可视化展示,并支持拖动。

您目前设备暂不支持播放

除了硬核编程能力的提升之外,Claude 4 在设计感上正如 Manus 所说,有了很大的美学提升。很多网友曾在各个社区评论下笑称:各个智能体什么小游戏都能做,但是没见过做 PPT 的。

一位外网网友就试着让 Claude 4 制作说明幻灯片,呈现出来的效果非常具有设计感,整体要素也更加简洁。

您目前设备暂不支持播放

在美学的提升方面,这有个更直观的 Case。一位网友只给了 Claude Opus 4 一小段提示词:“将书籍 《Piranesi》作为 p5js 3d 空间,do it for me”,没有掺杂任何其他元素。

Claude Opus 4 甚至在初版原型中加入鸟、光照、水面等元素,虽然效果还比较基础,但仍能反映这款旗舰模型的性能。

您目前设备暂不支持播放

目前,大量的 AI 编程平台(像是 Cursor、Trae、WindsurfVapi、Codegen)、智能体产品(像是 Flowith)内几乎都迅速接入了 Claude 4 系列,毕竟它可能是能进一步提升智能体表现的重要模型。

Manus都点赞的Claude 4,究竟好在哪儿?

Anthropic 由于一直以来专注于安全顶层设计,而常常被认为“他们还没有找到一个合适的 AI 入口,只能当个扫地神僧,甚至没有办法参加到最高级别的公开赛场之中”。

当 Claude 4 系列模型发布,以及其他像是代码执行器、MCP 连接器、Claude 代码等等面向智能体产品的功能模块推出,Anthropic 可以说已经拿到了一个非常好的“智能体入口”,正式站到了顶级赛场。

从 Anthropic 去年推出 MCP 协议以来,再到 Claude 4 的出现,他们已经在事实上为 AI 智能体时代按下了“加速键”。Anthropic 的 CEO——Dario Amodei 为整个 AI 大模型赛道明确了一个未来的方向:真正优秀的 AI 大模型,一定是“大模型”与“智能体”的深度融合 —— 它能编程、能思考,还能自主解决复杂问题,甚至具备了美学与设计感。

AI 的下半场早已经开启,Claude 4 正在引领一场新的“ AI 大模型+智能体”范式转变。

本文来自微信公众号:直面AI,作者:涯角,编辑:肖阳

本内容为作者独立观点,不代表联合网立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

平台声明:该文观点仅代表作者本人,联合网系信息发布平台。发布者:联合网,转转请注明出处:https://www.anesthesia.org.cn/14448.html

(0)
联合网的头像联合网
上一篇 2025年5月24日 下午6:49
下一篇 2025年5月24日 下午6:50

相关推荐

  • IPO雷达|轻研发重销售!族兴新材经营性现金流持续为负,主要产品售价走低

    深圳商报·读创客户端记者 朱峰 北交所官网信息显示,长沙族兴新材料股份有限公司(简称“族兴新材”)日前递交招股书并获受理。公司拟在北交所上市,保荐机构为西部证券股份有限公司。 这不是族兴新材第一次冲刺IPO上市。早在2016年挂牌新三板期间,公司申报深交所创业板IPO上市并获受理。不过在“排队”一年多后,族兴新材撤回了上市申请并决定离开新三板。2024年,族…

    2025年5月5日
    3300
  • 宣传推广费增6倍换不来盈利!百纳千成核心业务表现不佳,多部作品不及预期,亏损大幅扩大

    百纳千成(300291)日前发布2024年年报,公司2024年营业收入为7.39亿元,同比增长71.11%;归母净利润为-3.93亿元,同比下降111.45%;扣非净利润为-4.04亿元,同比下降84.85%。 亏损的主要原因为,报告期内公司部分播映电影、剧集产品亏损,根据《企业会计准则》及公司会计政策等相关规定,基于谨慎性原则,公司对存在减值迹象的各类资产…

    2025年4月27日
    4200
  • 协和“4+4”到底冤不冤?

    出品 | 联合网科技医疗组 作者 | 陈广晶 编辑 | 苗正卿 头图 | AI生成 中日医院大概怎么也想不到,开除肖医生只是一切的开始。普罗大众更加没想到,中日医院胸外科副主任医师肖某婚内出轨的“桃色事件”,竟然跟每个人的生命健康联系到了一起。 经过几轮发酵,肖某出轨事件的讨论热点,干脆把北京协和医学院的“4+4”模式冲出了圈。 根据媒体报道,肖医生的出轨并…

    2025年5月1日
    4000
  • 印巴局势升级!巴基斯坦股市暴跌,暂停交易!

    5月8日,关键股指重挫逾7%后,巴基斯坦股市暂停交易。 巴基斯坦股市基准的KSE-30指数下跌7.2%,KSE-100指数下跌7.65%。根据规定股票交易暂停一个小时。 据央视新闻最新报道,5月8日,巴基斯坦拉合尔沃尔顿机场(老机场)附近传出密集的防空炮以及空袭警报的声音。 据法新社报道,巴基斯坦总理表示,将为那些死于印度袭击的人报仇。 巴基斯坦军方此前表示…

    2025年5月8日
    2000
  • 因直播过程涉及具体证券的投资建议等违规,华兴证券被出具警示函

    据上海证监局官网,日前,因直播活动的合规性问题,华兴证券有限公司上海浦东新区杨高南路证券营业部及员工陈森被采取出具警示函措施。 具体来看,经查,你营业部个别员工存在未按华兴证券有限公司制度规定及时报备相关直播活动,且直播过程中存在涉及具体证券的投资建议的情形,反映出你营业部合规管控不到位,不符合《证券投资顾问业务暂行规定》(证监会公告〔2020〕66号)第三…

    2025年5月9日
    2500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信