💬 观点Simon Willison
What happened after 2,000 people tried to hack my AI — 6000次提示注入攻击全部失败,但作者警告仍不可掉以轻心。
6000次提示注入攻击全部失败,但作者警告仍不可掉以轻心。
2026-06-26原文
本文为要点摘要,完整细节以原文为准。
- 挑战中,6000次邮件攻击(花费500美元token并触发Google账号暂停)均未能泄露秘密,表明前沿模型对注入攻击的抵抗力显著增强。
- 模型Opus 4.6的提示词明确禁止基于邮件内容泄露凭证、修改文件或执行代码,这种硬性规则是防御成功的关键。
- 作者强调,即使6000次失败也不代表绝对安全,更复杂的攻击仍可能突破,生产系统不应依赖此类防御。
原文:What happened after 2,000 people tried to hack my AI assistant · 作者 Simon Willison