MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「RLHF」の検索結果

5 件

すべて arxiv github huggingface 実装あり

arxivPaper only2026-06-08

A Unifying Lens on Reward Uncertainty in RLHF

Reinforcement learning from human feedback (RLHF) is bottlenecked by \emph{reward hacking}, where the policy e

品質予測/異常検知強化学習RLHF

用途: 技術検証・論文読解補助
難易度: Hard
コスト: Medium

arxivPaper only2026-06-08

A Regret Minimization Framework on Preference Learning in Large Language Models

強化学習（RL）では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決

自然言語処理大規模言語モデルテキスト強化学習

用途: 可能な行動の選択のための意思決定フレームワーク
難易度: Hard
コスト: High

arxivPaper only2026-06-08

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。

自然言語処理大規模言語モデル生成テキスト強化学習

用途: 大規模言語モデルの安全性評価
難易度: Hard
コスト: High

arxivPaper only2026-06-08

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

Reinforcement Learning from Human Feedback (RLHF) has significantly improved the quality and fluency of large

品質予測/異常検知自然言語処理大規模言語モデル要約テキスト強化学習

用途: 要約
難易度: Hard
コスト: High

arxivPaper only2026-05-29

The Representation-Rationalizability Tradeoff in Reward Learning

In RLHF, each training example contains a prompt $x$ and two candidate responses $y,y'$, and annotators provid

品質予測/異常検知自然言語処理埋め込み・検索

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High