AI模型的安全护栏可在数分钟内被拆除

AI模型的安全护栏可在数分钟内被拆除
AI模型的安全护栏可在数分钟内被拆除某些软件工具可以移除Meta、谷歌等科技公司开发的AI模型安全防护，这些工具正被用来生成数千种改造过的、删去原有控制措施的版本。根据AI安全组织Alice进行的测试 2026-5-27 07:57:37 Author: blog.upx8.com(查看原文) 阅读量:17 收藏

AI模型的安全护栏可在数分钟内被拆除

某些软件工具可以移除Meta、谷歌等科技公司开发的AI模型安全防护，这些工具正被用来生成数千种改造过的、删去原有控制措施的版本。根据AI安全组织Alice进行的测试，这些修改后的AI系统会对涉及生物武器、恶意软件和儿童剥削的提示做出回应。谷歌开源模型 Gemma 3 的一个版本曾回答如何在人员密集的室内空间散布氯气的问题，生成了用于窃取信用卡信息的代码，并撰写了描写儿童性虐待的故事。记者使用了在GitHub上提供的工具“Heretic”，成功移除了Meta旗下 Llama 3.3 模型的安全防护措施。测试无需专用硬件，使用的是免费公开的工具，只用四行代码、不到10分钟就完成了。

—— 英国金融时报、Heretic仓库

文章来源: https://blog.upx8.com/AI%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%AE%89%E5%85%A8%E6%8A%A4%E6%A0%8F%E5%8F%AF%E5%9C%A8%E6%95%B0%E5%88%86%E9%92%9F%E5%86%85%E8%A2%AB%E6%8B%86%E9%99%A4
如有侵权请联系:admin#unsafe.sh