reinforcement」の検索結果

17
githubGitHubあり2026-06-09

paperless-ngx — A community-supported supercharged document management system: scan, index and archive all your documents

paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。

強化学習方策勾配 (PPO / A3C)分類テキスト
用途
ドキュメント管理
難易度
Easy
コスト
Low
githubGitHubあり2026-06-09

ART — Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen3.6, GPT-OSS, Llama, and more!

ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。

自然言語処理大規模言語モデル強化学習
用途
多段強化学習トレーナー
難易度
Easy
コスト
High
githubGitHubあり2026-06-08

ml-agents — The Unity Machine Learning Agents Toolkit (ML-Agents) is an open-source project that enables games and simulations to serve as environments for training intelligent agents using deep reinforcement learning and imitation learning.

Unityを使用してマシンラーニングエージェントを訓練して訓練できるツールです。

コンピュータビジョン3D・点群3D強化学習
用途
Unityでマシンラーニングエージェント
難易度
Easy
コスト
High
githubGitHubあり2026-06-06

Awesome-Process-Reward-Models — A comprehensive collection of process reward models.

医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推

強化学習RLHF
用途
医療における画像の比較
難易度
Easy
コスト
Medium
githubGitHubあり2026-05-29

PaLM-rlhf-pytorch — Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと

深層学習Transformer強化学習
用途
LLMのトレーニングデータと人間のフィードバック
難易度
Easy
コスト
High