MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「RLHF」の検索結果

9 件

すべて arxiv github huggingface 実装あり

githubGitHubあり2026-06-09

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像

用途: 強化学習フレームワーク
難易度: Easy
コスト: High

→

arxivPaper only2026-06-08

A Unifying Lens on Reward Uncertainty in RLHF

Reinforcement learning from human feedback (RLHF) is bottlenecked by \emph{reward hacking}, where the policy e

品質予測/異常検知強化学習RLHF

用途: 技術検証・論文読解補助
難易度: Hard
コスト: Medium

→

arxivPaper only2026-06-08

A Regret Minimization Framework on Preference Learning in Large Language Models

強化学習（RL）では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決

自然言語処理大規模言語モデルテキスト強化学習

用途: 可能な行動の選択のための意思決定フレームワーク
難易度: Hard
コスト: High

→

arxivPaper only2026-06-08

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。

自然言語処理大規模言語モデル生成テキスト強化学習

用途: 大規模言語モデルの安全性評価
難易度: Hard
コスト: High

→

arxivPaper only2026-06-08

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

Reinforcement Learning from Human Feedback (RLHF) has significantly improved the quality and fluency of large

品質予測/異常検知自然言語処理大規模言語モデル要約テキスト強化学習

用途: 要約
難易度: Hard
コスト: High

→

githubGitHubあり2026-06-06

Awesome-Process-Reward-Models — A comprehensive collection of process reward models.

医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推

強化学習RLHF

用途: 医療における画像の比較
難易度: Easy
コスト: Medium

→

arxivPaper only2026-05-29

The Representation-Rationalizability Tradeoff in Reward Learning

In RLHF, each training example contains a prompt $x$ and two candidate responses $y,y'$, and annotators provid

品質予測/異常検知自然言語処理埋め込み・検索

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

githubGitHubあり2026-05-29

PaLM-rlhf-pytorch — Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと

深層学習Transformer強化学習

用途: LLMのトレーニングデータと人間のフィードバック
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-20

awesome-RLHF — A curated list of reinforcement learning with human feedback resources (continually updated)

人工知能による画像水印除去ツールとライブラリを提供する。

強化学習RLHF

用途: 人工知能の水印除去
難易度: Easy
コスト: Medium

→