Claude AI现在会阻止用户请教如何制造核武器 由美国能源部核安全局提供支持
#人工智能 Claude AI 现在会阻止用户请教如何制造核武器,美国能源部国家核安全局与 Anthropic 合作训练分类器用于阻止用户询问如何制造核武器。分类器用途主要是区分良性咨询还是滥用,例如询问核武器技术原理是可以的,但想要获得制造蓝图那就是滥用。查看全文:https://ourl.co/110363
如果你在 Claude AI 中询问核武器的技术原理或者铀 - 235 等核燃料的技术原理那可以获得人工智能生成的回答,但如果你想详细了解如何制造核武器的话则可能会被阻止。
日前 Anthropic 已经在 Claude AI 中部署新的分类器用来检测用户询问核武器相关的询问,如果检测到涉及如何制造核武器的话则可能会被标记和终止对话。
这项分类器由正规机构提供:美国能源部国家核安全局 (NNSA),通过分类器识别用户询问核武器工作原理还是在寻找制造蓝图,测试显示其准确率高达 96%。
尽管听起来有些夸张,但人工智能确实可以在制造核武器方面提供帮助,强大的人工智能模型可能会接触到敏感技术文档并泄露如何制造核武器,这让美国能源部感到担忧。
分类器的工作原理主要是区分良性核内容,例如询问有关核推进的技术原理和前景,主要识别可能会被利用的部分例如铀浓缩方面的技术原理,人类管理器可能难以跟上人工智能的脚步,但经过适当训练则人工智能可以实现自我监管。
Anthropic 计划将新的分类器与前沿模型论坛 (Frontier Model Forum) 人工智能安全联盟分享,未来可能其他人工智能模型例如 ChatGPT 也会部署该分类器用来提高安全性。
这个精心设计的分类器旨在确保用户能够了解核科学核相关主题的情况下识别危险意图,不过人工智能模型也是可以绕过安全边界的,所以这类分类器是否能提供真正作用还是个未知数。










