Claude AI现在将在遇到极端持续辱骂等互动情况时主动结束对话以保护AI模型本身
#人工智能 Claude AI现在将在遇到极端持续辱骂等互动情况时主动结束对话以保护AI模型本身,这项政策适用于Claude Opus 4和4.1版。Anthropic将主动结束对话视作实验,当用户请求某些极端情况的内容例如要求提供涉及未成年人的性内容时都可能会被主动结束对话。查看全文:https://ourl.co/110260
目前人工智能模型普遍存在幻觉以及有时候越过模型提供商设置的安全边界,例如模型通常都被要求避免伤害人类,但有时候模型会越过边界刺激甚至引导人类自杀。
还有种可能稍微常见的情况就是人工智能模型与用户进行不友好的对话,例如持续性的辱骂用户,所以现在Claude AI就增加新功能用于在发现某些极端情况时自动结束对话。
Anthropic称当模型遇到罕见的、极端的、持续有害或辱骂性的用户互动情况时就可能会结束对话,不过该公司强调该政策并未保护人类用户,而是为了保护AI模型本身。
这项变更仅适用于Claude Opus 4和4.1版,并且Anthropic也再次强调仅在极端情况下Claude模型才会结束对话,例如当用户请求涉及未成年人的性内容,或者试图索取可能引起大范围暴力或恐怖行为的信息。
至于新的对话结束功能,Anthropic称在所有情况下Claude只会在尝试多次重定向且失败、对有效互动的希望已经耗尽,或者当用户明确要求Claude结束聊天时,才会使用对话结束功能作为最后的手段。
为了防止意外情况Claude还被要求在用户面临伤害自己或伤害他人等紧急的情况时不要使用AI能力继续提供内容,而在对话被结束后用户仍然可以发起新会话并重新开始对话。
最后Anthropic将此功能视作实验并收集数据改进方法,所以未来有可能Claude其他模型也会设置类似功能,避免在极端情况下AI模型伤害人类或者帮助用户伤害其他人。










