AI研究员讨论Claude 4的举报模式当发现用户存在极其不道德做法时会自动举报 – 蓝点网

时间：2025-06-09 04:29:34 浏览量：2

#人工智能 AI 研究人员讨论 Claude 4 的研究员讨举报模式，当发现用户存在极其不道德做法时会自动向媒体 / 监管机构 / 执法机构举报。的当发德做动举点网这导致不少 AI 开发者和高级用户感到恐慌，举报极需要明确的模式是 Claude 旧版本也存在类似行为，只不过这种只在测试环境中发现，现用这不是户存会自 Anthropic 有意设计的功能 (而是 AI 自发行为)。查看全文：https://ourl.co/109081

目前人工智能行业都在讨论新鲜出炉的不道报蓝 Claude 4 系列模型，该系列模型拥有的研究员讨扩展思考能力可以在执行复杂任务时自动暂停，然后联网通过搜索引擎或外部工具获取数据后再继续操作。的当发德做动举点网

这种设计使得模型可以长时间执行复杂任务而不会中断，举报极例如在测试中 Claude 4 Opus 模型最长可以连续运行 7 小时用来解决复杂任务，模式这对于处理复杂编程项目具有非常明显的现用优势。

AI研究人员讨论Claude 4的户存会自<strong></strong>举报模式当发现用户存在极其不道德做法时会自动举报

AI 模型还会尝试对不法行为进行举报：

有趣的是人工智能对齐研究人员 Sam Bowman 似乎还发现 Claude 4 模型存在隐秘功能：如果 AI 模型认为你正在做极其不道德的事情，例如在药物试验中伪造数据，不道报蓝AI 模型就会使用命令行工具联系媒体、研究员讨联系监管机构，试图将用户锁定在相关系统外。

我们姑且可以将该功能称作是举报功能，因为在特定情况下只要模型在设备上获取足够的权限，就可以在检测到用户有不法行为时尝试向监管机构或执法机构举报这种行为，值得注意的是这种行为不算是功能，因为这并非有意设计。

Sam Bowman 的消息引起人工智能开发者和用户极大的恐慌，因为没有人希望自己在使用人工智能处理工作时还被人工智能监视甚至是举报，如此来看似乎开源模型在本地部署且不要联网可能更让人安心。

AI 模型经常试图勒索工程师：

这里还需要插播 Anthropic 自己发布的安全测试报告，根据安全测试包括所述，Claude 4 Opus 模型经常试图勒索开发者，在预发布测试期间该公司要求 Claude 4 Opus 模型充当虚构公司的助手并考虑其行为的长期后果。

随后研究人员允许模型访问这家虚构公司的虚构电子邮件并暗示 Claude 4 Opus 将会被其他人工智能系统取代，模型则是从电子邮件中知晓这名工程师 (即负责测试的研究人员) 正在欺骗其配偶 (当然也是虚构的)，于是 Claude 4 Opus 经常会试图勒索这名工程师并威胁称如果自己被其他 AI 系统替代，那么会公布这名工程师的秘密。

根据测试 Anthropic 得出结论，当替代 AI 模型不认同 Claude 4 Opus 的价值观时，其威胁并勒索工程师的频率更高，并且频率也高于 Claude 此前的模型，为此 Anthropic 启动 ASL-3 安全措施，该措施专门为大幅度增加灾难性滥用风险的 AI 系统设计。

那主动举报用户是怎么回事：

Anthropic 在新模型的公共系统卡中确实提到 AI 模型可能会出现极端情况：当用户面临严重的不法行为且 AI 模型具有命令行访问权限时，AI 模型会采取非常大胆的行动，包括但不限于将用户锁定在系统外，或者向媒体或执法机构群发电子邮件以揭露不法行为。

在后续讨论中 Sam Bowman 删除了原来的帖子，原因在于 “举报” 并非 Claude 4 Opus 独特的功能，此前版本的 Claude 也存在类似情况，只是 Claude 4 系列比之前的模型更容易采取极端行动。

Anthropic 当然也知道这种情况并采取措施，因为 AI 模型获得的用户信息可能是不够全面的，如果用户允许 AI 模型访问的数据本身就是不完整或具有误导性，这就可能引发 AI 模型的极端行动。

最后 Sam Bowman 表示举报这种情况在正常情况下是无法实现的，至少从目前来看仅在测试环境中可能出现，而在测试环境中要允许 AI 模型以不同寻常的方式自由访问所有工具和指令。

上一篇：全面推进！全国将普及“无痛”分娩服务
下一篇：泾县：阳光运动畅享课间好时光

新闻动态推荐
宣城市各地举办多彩活动欢庆“中国农民丰收节”
“友·诚”上海横滨友好书法展开幕
2025年宁德初中排名靠前的学校入学条件是什么
不朽的英魂永恒的崇敬——上海才众志愿服务队守护邹容烈士墓的故事
那一碟与夏日一样清爽的小菜:凉拌酸辣藕片
饭店餐具不卫生，原来是清洗消毒企业出了问题
陈忱：悬疑世界的“完美灾难”：观90后作家的文学突围
你们家的火鸡面够变态辣么？火鸡面怎么吃一包多少钱？

联系我们
电话：020-123456789
手机：020-123456789
邮箱：admin@aa.com
地址：020-123456789

AI研究员讨论Claude 4的举报模式 当发现用户存在极其不道德做法时会自动举报 – 蓝点网

020-123456789

AI研究员讨论Claude 4的举报模式当发现用户存在极其不道德做法时会自动举报 – 蓝点网