您的当前位置:首页 > 娱乐 > Anthropic发布Claude 4 编程和复杂任务处理能力大幅度提升 但上下文仍然是200K – 蓝点网 正文
时间:2025-08-28 17:34:19 来源:网络整理 编辑:娱乐
#人工智能 Anthropic 发布 Claude 4:编程和复杂任务处理能力大幅度提升,然而短板是上下文窗口依然是 200K,远低于 Gemini 2.5 Pro 和 ChatGPT 4.1。从测试
Anthropic 日前正式发布其最新一代 AI 模型 Claude 4,文仍网包括旗舰款 Claude Opus 4 和性能优化的蓝点 Claude Sonnet 4。这两款模型在编程能力和独立长任务处理方面表现出色,发复杂被 Anthropic 宣称为业内领先的布Ce编 AI 助手,旨在挑战 OpenAI 的程和处理 ChatGPT 和谷歌的 Gemini 等竞争对手。
Claude Opus 4:旗舰模型,任务然编程能力称雄
Claude Opus 4 是大幅度提 Anthropic 迄今为止最强大的模型,特别在软件工程领域表现突出。升但上下根据 Anthropic 的文仍网官方博客,Opus 4 在 SWE-bench (软件工程基准测试) 中得分高达 72.5%,在 Terminal-bench 测试中得分 43.2%,超越了其前代模型和谷歌 Gemini 2.5 Pro 等竞争对手。
Opus 4 的独特优势在于其支持 “扩展思考”(Extended Thinking)功能,可在处理复杂任务时暂停,调用搜索引擎或其他外部工具获取更多数据后继续执行。这使得 Opus 4 能够胜任需要数千个步骤、持续数小时的复杂任务,例如代码调试、复杂问题分解,甚至在演示中通过文件访问和自建导航指南,成功运行《宝可梦红》等电子游戏。
Claude Sonnet 4:免费用户的强大选择
Claude Sonnet 4 虽然是较小的模型,但相比前代 Sonnet 3.7,其性能大幅提升,尤其在指令遵循和编程能力上表现优异。Anthropic 透露,Sonnet 4 已被 GitHub 采用,驱动其新一代 Copilot 编码代理。由于 Sonnet 4 是 Claude 聊天机器人免费层的默认模型,其广泛的应用潜力不容小觑。
Claude 4 系列模型在工具使用和记忆系统方面进行了显著优化:
并行工具使用:Opus 4 和 Sonnet 4 能够同时调用多种第三方工具,并在推理和搜索之间无缝切换,提升任务处理效率。
记忆系统:通过访问外部文件,模型能够保存和提取关键信息,减少用户重复输入的麻烦。
思考摘要:为避免冗长的过程描述,Claude 4 采用辅助 AI 模型生成简洁的 “思考摘要”,将复杂任务的数千步骤浓缩为易于理解的概要,使用户更轻松地掌握 AI 的决策过程。
此外,Anthropic 表示,Claude 4 通过优化算法显著减少了模型在任务中 “走捷径” 或生成虚假答案的行为,从而提高了结果的可靠性和透明度。
Anthropic 为不同用户群体提供了灵活的选择:
Claude Sonnet 4:以性能和成本的平衡为特色,定价为输入 3 美元 / 百万 token,输出 15 美元 / 百万 token,适合广泛的开发者和免费用户。
Claude Opus 4:作为高端模型,定价较高(输入 15 美元 / 百万 token,输出 75 美元 / 百万 token),但其卓越的复杂任务处理能力使其成为专业开发者和企业的首选。
批量处理优惠:两款模型均支持 50% 的批量处理折扣,进一步降低了大规模使用的成本。
Claude 4 的定价结构显示,Anthropic 希望通过免费层(Sonnet 4)和付费订阅计划(Opus 4,包含在 Claude Pro、Max、Team 和 Enterprise 计划中)吸引从个人开发者到大型企业的广泛用户群体。
短板:上下文窗口限制
尽管 Claude 4 在编程和长任务处理方面表现出色,但其上下文窗口仍限制在 200K token,远低于谷歌 Gemini 2.5 Pro 的 100 万 token(计划支持 200 万 token)以及 ChatGPT 4.1 的 100 万 token。这一局限可能在处理超大规模项目时成为瓶颈,尤其是在需要处理大量代码或长文档的场景中.
欧盟可维修性强制标签从6月20日起生效 手机/平板必须贴上是否容易维修和耐用性评级 – 蓝点网2025-08-28 16:59
微软宣布在Windows 11中集成MCP模型上下文协议 将系统打造为代理操作系统 – 蓝点网2025-08-28 16:58
在退出智能手机市场后LG宣布停止为设备提供软件更新 服务器将在6月30日关闭 – 蓝点网2025-08-28 16:38
苹果即将推出的iPhone 17 Air超薄机型搭载令人失望的电池 仅2800毫安时 – 蓝点网2025-08-28 16:36
视频会议软件Zoom发布中断事故报告 域名注册局GoDaddy错误将其域名停止解析 – 蓝点网2025-08-28 16:00
微软不再向非营利机构免费提供Microsoft 365 Business Premium和Office 365 E1许可证 – 蓝点网2025-08-28 15:55
OpenAI推出价格更便宜的Flex API接口 处理速度较慢但只需要半价即可使用 – 蓝点网2025-08-28 15:44
微软商店变得更加开放 个人开发者不需要缴纳19美元即可注册 后续将显示软件更新时间 – 蓝点网2025-08-28 15:18
[附解决方案] 工程造价软件开发商广联达驱动程序导致Windows 11大规模蓝屏死机 – 蓝点网2025-08-28 15:00
视频会议软件Zoom发布中断事故报告 域名注册局GoDaddy错误将其域名停止解析 – 蓝点网2025-08-28 14:56
开源密码管理器KeePass被黑客利用 黑客利用开源代码制作恶意版本传播发起勒索攻击 – 蓝点网2025-08-28 17:20
群联推出旗舰级主控芯片E28 顺序读写速度分别为14.8GB/秒和14GB/秒 – 蓝点网2025-08-28 16:51
传英伟达提高RTX 50系显卡价格 并且允许AIC合作伙伴将成本转嫁给消费者 – 蓝点网2025-08-28 16:25
ChatGPT修复未成年人可以生成色情图片的漏洞 某些情况下甚至鼓励生成色情内容 – 蓝点网2025-08-28 16:13
单字母顶级域名邮箱!埃隆马斯克确认将推出@X.com邮箱服务 – 蓝点网2025-08-28 16:12
谷歌内部文件显示谷歌要求网站必须同意免费共享数据给AI概览 或者失去所有谷歌流量 – 蓝点网2025-08-28 15:55
蓝牙技术联盟SIG发布蓝牙6.1版 新增随机可解析私有地址用来增强隐私 – 蓝点网2025-08-28 15:34
小米被曝员工日均工时不低于11.5小时 有些团队甚至要求日均工时15小时 – 蓝点网2025-08-28 15:30
黑客大赛Pwn2Own 2025 柏林站结束 研究人员利用多个零日漏洞获得107万美元奖励 – 蓝点网2025-08-28 15:19
传英伟达提高RTX 50系显卡价格 并且允许AIC合作伙伴将成本转嫁给消费者 – 蓝点网2025-08-28 14:52