MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「RLHF」の検索結果

4 件

すべて arxiv github huggingface 実装あり

githubGitHubあり2026-06-09

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像

用途: 強化学習フレームワーク
難易度: Easy
コスト: High

githubGitHubあり2026-06-06

Awesome-Process-Reward-Models — A comprehensive collection of process reward models.

医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推

強化学習RLHF

用途: 医療における画像の比較
難易度: Easy
コスト: Medium

githubGitHubあり2026-05-29

PaLM-rlhf-pytorch — Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと

深層学習Transformer強化学習

用途: LLMのトレーニングデータと人間のフィードバック
難易度: Easy
コスト: High

githubGitHubあり2026-05-20

awesome-RLHF — A curated list of reinforcement learning with human feedback resources (continually updated)

人工知能による画像水印除去ツールとライブラリを提供する。

強化学習RLHF

用途: 人工知能の水印除去
難易度: Easy
コスト: Medium