arxivPaper only2026-06-08
Emergent alignment and the projectability of ethical personas
Work on `emergent misalignment' shows that finetuning LLMs on narrow tasks can induce broadly misaligned behav
自然言語処理大規模言語モデル
- 用途
- 画像生成を安全かつ安全性を確保する方法
- 難易度
- Hard
- コスト
- High
→