reinforcement」の検索結果

46
githubGitHubあり2026-06-09

paperless-ngx — A community-supported supercharged document management system: scan, index and archive all your documents

paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。

強化学習方策勾配 (PPO / A3C)分類テキスト
用途
ドキュメント管理
難易度
Easy
コスト
Low
githubGitHubあり2026-06-09

ART — Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen3.6, GPT-OSS, Llama, and more!

ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。

自然言語処理大規模言語モデル強化学習
用途
多段強化学習トレーナー
難易度
Easy
コスト
High
arxivGitHubあり2026-06-08

Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization

オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ

深層学習軽量化・量子化マルチモーダル強化学習
用途
オンポリシーディストリレーション問題
難易度
Hard
コスト
High
githubGitHubあり2026-06-08

ml-agents — The Unity Machine Learning Agents Toolkit (ML-Agents) is an open-source project that enables games and simulations to serve as environments for training intelligent agents using deep reinforcement learning and imitation learning.

Unityを使用してマシンラーニングエージェントを訓練して訓練できるツールです。

コンピュータビジョン3D・点群3D強化学習
用途
Unityでマシンラーニングエージェント
難易度
Easy
コスト
High
githubGitHubあり2026-06-06

Awesome-Process-Reward-Models — A comprehensive collection of process reward models.

医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推

強化学習RLHF
用途
医療における画像の比較
難易度
Easy
コスト
Medium
githubGitHubあり2026-05-29

PaLM-rlhf-pytorch — Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと

深層学習Transformer強化学習
用途
LLMのトレーニングデータと人間のフィードバック
難易度
Easy
コスト
High