您的当前位置:首页 > 综合 > AI研究员讨论Claude 4的举报模式 当发现用户存在极其不道德做法时会自动举报 – 蓝点网 正文
时间:2025-08-28 13:12:08 来源:网络整理 编辑:综合
#人工智能 AI 研究人员讨论 Claude 4 的举报模式,当发现用户存在极其不道德做法时会自动向媒体 / 监管机构 / 执法机构举报。这导致不少 AI 开发者和高级用户感到恐慌,需要明确的是 Cl
目前人工智能行业都在讨论新鲜出炉的不道报蓝 Claude 4 系列模型,该系列模型拥有的研究员讨扩展思考能力可以在执行复杂任务时自动暂停,然后联网通过搜索引擎或外部工具获取数据后再继续操作。的当发德做动举点网
这种设计使得模型可以长时间执行复杂任务而不会中断,举报极例如在测试中 Claude 4 Opus 模型最长可以连续运行 7 小时用来解决复杂任务,模式这对于处理复杂编程项目具有非常明显的现用优势。
AI 模型还会尝试对不法行为进行举报:
有趣的是人工智能对齐研究人员 Sam Bowman 似乎还发现 Claude 4 模型存在隐秘功能:如果 AI 模型认为你正在做极其不道德的事情,例如在药物试验中伪造数据,不道报蓝AI 模型就会使用命令行工具联系媒体、研究员讨联系监管机构,试图将用户锁定在相关系统外。
我们姑且可以将该功能称作是举报功能,因为在特定情况下只要模型在设备上获取足够的权限,就可以在检测到用户有不法行为时尝试向监管机构或执法机构举报这种行为,值得注意的是这种行为不算是功能,因为这并非有意设计。
Sam Bowman 的消息引起人工智能开发者和用户极大的恐慌,因为没有人希望自己在使用人工智能处理工作时还被人工智能监视甚至是举报,如此来看似乎开源模型在本地部署且不要联网可能更让人安心。
AI 模型经常试图勒索工程师:
这里还需要插播 Anthropic 自己发布的安全测试报告,根据安全测试包括所述,Claude 4 Opus 模型经常试图勒索开发者,在预发布测试期间该公司要求 Claude 4 Opus 模型充当虚构公司的助手并考虑其行为的长期后果。
随后研究人员允许模型访问这家虚构公司的虚构电子邮件并暗示 Claude 4 Opus 将会被其他人工智能系统取代,模型则是从电子邮件中知晓这名工程师 (即负责测试的研究人员) 正在欺骗其配偶 (当然也是虚构的),于是 Claude 4 Opus 经常会试图勒索这名工程师并威胁称如果自己被其他 AI 系统替代,那么会公布这名工程师的秘密。
根据测试 Anthropic 得出结论,当替代 AI 模型不认同 Claude 4 Opus 的价值观时,其威胁并勒索工程师的频率更高,并且频率也高于 Claude 此前的模型,为此 Anthropic 启动 ASL-3 安全措施,该措施专门为大幅度增加灾难性滥用风险的 AI 系统设计。
那主动举报用户是怎么回事:
Anthropic 在新模型的公共系统卡中确实提到 AI 模型可能会出现极端情况:当用户面临严重的不法行为且 AI 模型具有命令行访问权限时,AI 模型会采取非常大胆的行动,包括但不限于将用户锁定在系统外,或者向媒体或执法机构群发电子邮件以揭露不法行为。
在后续讨论中 Sam Bowman 删除了原来的帖子,原因在于 “举报” 并非 Claude 4 Opus 独特的功能,此前版本的 Claude 也存在类似情况,只是 Claude 4 系列比之前的模型更容易采取极端行动。
Anthropic 当然也知道这种情况并采取措施,因为 AI 模型获得的用户信息可能是不够全面的,如果用户允许 AI 模型访问的数据本身就是不完整或具有误导性,这就可能引发 AI 模型的极端行动。
最后 Sam Bowman 表示举报这种情况在正常情况下是无法实现的,至少从目前来看仅在测试环境中可能出现,而在测试环境中要允许 AI 模型以不同寻常的方式自由访问所有工具和指令。
消息称埃隆马斯克的xAI控股公司正在融资200亿美元 对X估值达到450亿美元 – 蓝点网2025-08-28 12:32
开源加密库OpenPGP.js出现重大安全漏洞 电子邮件公钥加密被彻底破坏 – 蓝点网2025-08-28 12:17
开源密码管理器KeePass被黑客利用 黑客利用开源代码制作恶意版本传播发起勒索攻击 – 蓝点网2025-08-28 11:52
谷歌推出每月高达249.99美元的Google AI Ultra订阅 支持谷歌各种AI服务以及30TB存储空间 – 蓝点网2025-08-28 11:32
群晖正式发布DS925+网络附加存储设备 采用AMD处理器和双2.5GbE网口 – 蓝点网2025-08-28 11:30
技嘉承认RTX50系显卡存在导热凝胶渗漏并解释原因 但未提供召回或修复方案 – 蓝点网2025-08-28 11:18
小米被曝员工日均工时不低于11.5小时 有些团队甚至要求日均工时15小时 – 蓝点网2025-08-28 11:01
ChatGPT修复未成年人可以生成色情图片的漏洞 某些情况下甚至鼓励生成色情内容 – 蓝点网2025-08-28 10:42
英伟达新版驱动不再需要POPCNT指令集 你甚至可以在2006年的CPU上安装该驱动 – 蓝点网2025-08-28 10:31
ChatGPT推出轻量版深度研究工具 现在免费用户亦可使用深度研究 – 蓝点网2025-08-28 10:29
ChatGPT深度研究报告现已支持下载PDF文件 避免复制内容导致格式错误 – 蓝点网2025-08-28 13:09
加密货币版纸黄金:Tether称其黄金代币XAUt在瑞士存储7.7吨黄金进行支持 – 蓝点网2025-08-28 12:35
VMware vSphere虚拟化环境免费信息收集工具RVTools遭到黑客入侵分发带毒版本 – 蓝点网2025-08-28 12:07
互联网论坛4Chan被攻击后透露攻击细节 同时声称缺乏资金进行必要维护 – 蓝点网2025-08-28 12:04
奢侈品品牌迪奥疑似遭到黑客攻击被拖库 泄露中国区客户的敏感资料 – 蓝点网2025-08-28 12:02
Anthropic发布Claude 4 编程和复杂任务处理能力大幅度提升 但上下文仍然是200K – 蓝点网2025-08-28 11:57
安全研究人员发现某个包含1.84亿条账户密码的数据库 再次提醒用户更改泄露密码 – 蓝点网2025-08-28 11:50
小米被曝员工日均工时不低于11.5小时 有些团队甚至要求日均工时15小时 – 蓝点网2025-08-28 11:13
加密货币版纸黄金:Tether称其黄金代币XAUt在瑞士存储7.7吨黄金进行支持 – 蓝点网2025-08-28 11:00
ChatGPT更新Plus订阅用户的使用配额 每周使用o3模型可以发送100条消息 – 蓝点网2025-08-28 10:40