arxivPaper only2026-06-08
Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO
AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは
強化学習方策勾配 (PPO / A3C)テキスト
- 用途
- 攻撃の応答
- 難易度
- Hard
- コスト
- High
→