💬 观点Simon Willison
Prompt Injection as Role Confusion — LLM无法区分角色标签与用户输入,风格比内容更易引发越狱。
LLM无法区分角色标签与用户输入,风格比内容更易引发越狱。
2026-06-22原文
本文为要点摘要,完整细节以原文为准。
- 研究发现,模型对文本风格的敏感度高于实际内容,模仿系统/思考标签风格的输入可导致越狱,攻击成功率从61%降至10%仅需去风格化。
- 去风格化(destyling)能显著降低攻击成功率,表明模型依赖表面格式而非语义理解角色边界,这对提示注入防御提出根本挑战。
- 作者指出,除非LLM实现真正的角色感知,否则注入防御将永远是打地鼠游戏,且角色边界的连续性允许通过看似无害的文本进行大规模、合法的状态操控。
原文:Prompt Injection as Role Confusion · 作者 Simon Willison