RLHF」の検索結果

5
arxivPaper only2026-06-08

A Regret Minimization Framework on Preference Learning in Large Language Models

強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決

自然言語処理大規模言語モデルテキスト強化学習
用途
可能な行動の選択のための意思決定フレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-08

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。

自然言語処理大規模言語モデル生成テキスト強化学習
用途
大規模言語モデルの安全性評価
難易度
Hard
コスト
High