reinforcement」の検索結果

235
githubGitHubあり2026-06-09

paperless-ngx — A community-supported supercharged document management system: scan, index and archive all your documents

paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。

強化学習方策勾配 (PPO / A3C)分類テキスト
用途
ドキュメント管理
難易度
Easy
コスト
Low
githubGitHubあり2026-06-09

ART — Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen3.6, GPT-OSS, Llama, and more!

ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。

自然言語処理大規模言語モデル強化学習
用途
多段強化学習トレーナー
難易度
Easy
コスト
High
arxivPaper only2026-06-08

An Agency-Transferring Model-Free Policy Enhancement Technique

助け手モデルは、タスクの成果を最大化するために設計されていますが、実際には不適切または不完全な助け手モデルを使用している場合があります。この論文では、元の助け手モデルをRLのトレーニングプロセスに組み込むことで、トレーニ

自然言語処理埋め込み・検索強化学習
用途
助け手モデル改良
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Topological Neural Operators

この研究では、トポロジカルニューラルオペレータ(TNO)としてのニューラルネットワークの学習を可能にする方法を提案しました。TNOは、セル複素上のデータに基づいて、オペレータを学習し、クロス-次元的な結合を可能にします。

強化学習方策勾配 (PPO / A3C)
用途
トポロジカルニューラルオペレーターの学習
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは

強化学習方策勾配 (PPO / A3C)テキスト
用途
攻撃の応答
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

この研究では、強化学習のトレーニングに使用するRewardsの検証が難しい場合は、Rewardがグループレベルでは無価値で、グループ間の優劣比較が不可能となる問題に対処するためのReasoning Arenaを提案します

品質予測/異常検知深層学習軽量化・量子化生成テキスト強化学習
用途
強化学習のトレーニング
難易度
Hard
コスト
High
arxivPaper only2026-06-08

From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning

理論的思考は、最新の基礎モデルシステムが安全かつ効果的に現実世界で動作するには必須のスキルであると考えられています。しかし、理論的思考の進進には、「ショートカット」問題が存在し、タスクは99%の正解率を達成するのに、ただ

自然言語処理RAGテキストマルチモーダル強化学習
用途
理論的思考の強化問題
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization

オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ

深層学習軽量化・量子化マルチモーダル強化学習
用途
オンポリシーディストリレーション問題
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Shape Formation for the Cooperative Transportation of Arbitrary Objects Using Multi-Agent Reinforcement Learning

マルチロボットシステムを用いた物体の輸送は多くの分野、産業から家庭までで不可欠なタスクです。一度の輸送タスクをロボット数台の輸送タスクに分割しそこまでの各タスクを個別に解決します。物体は実際には形状や質量分布が非一様で、

強化学習方策勾配 (PPO / A3C)
用途
マルチロボットで物体の協力的な輸送
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

A Regret Minimization Framework on Preference Learning in Large Language Models

強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決

自然言語処理大規模言語モデルテキスト強化学習
用途
可能な行動の選択のための意思決定フレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連

コンピュータビジョンマルチモーダルQA画像テキスト
用途
統合医療医系のためのLLMベースの医療エージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。

自然言語処理大規模言語モデル生成テキスト強化学習
用途
大規模言語モデルの安全性評価
難易度
Hard
コスト
High
githubGitHubあり2026-06-08

ml-agents — The Unity Machine Learning Agents Toolkit (ML-Agents) is an open-source project that enables games and simulations to serve as environments for training intelligent agents using deep reinforcement learning and imitation learning.

Unityを使用してマシンラーニングエージェントを訓練して訓練できるツールです。

コンピュータビジョン3D・点群3D強化学習
用途
Unityでマシンラーニングエージェント
難易度
Easy
コスト
High
githubGitHubあり2026-06-06

Awesome-Process-Reward-Models — A comprehensive collection of process reward models.

医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推

強化学習RLHF
用途
医療における画像の比較
難易度
Easy
コスト
Medium
arxivPaper only2026-06-05

Automatic, Debiased, and Invariant Counterfactual Generation under General Interventions

Generative models for counterfactual outcomesは、決定をサポートするために複雑な干渉に対して、潜在的な結果を生成するための優れたポテンシャルを持っています。しかし、対象外データ

強化学習方策勾配 (PPO / A3C)生成回帰
用途
再現性の低いデータに対して対象外データの生成
難易度
Hard
コスト
Medium
arxivPaper only2026-06-05

On orbital stabilization of a circular motion primitive for a dynamic extension of the Dubins car model

この論文では、Dubins車モデルの動的拡張に基づく円形運動原理の軌道安定化を扱った。軌道安定化を実現するために、非線形化の手法とコントローラ設計の条件を提案し、非線形化の手法が安定化につながることを確認した。

強化学習
用途
軌道安定化の開発
難易度
Hard
コスト
Medium
arxivPaper only2026-06-05

Rapid co-design of Buoyancy-assisted robots for Challenging Locomotion using Gaussian Evolutionary Specialists

この論文では、水上ロボットの設計の高速化のための新しい方法を提案した。Gaussian Evolutionary Specialists(GES)を用いた設計システムを用い、ロボットの形状と制御を同時に最適化することがで

コンピュータビジョンセグメンテーション強化学習
用途
水上ロボットの設計の高速化
難易度
Hard
コスト
High
arxivPaper only2026-06-05

An Abstract Architecture for Explainable Autonomy in Hazardous Environments

この論文は、人間の労働者が自律ロボットを使用および制御できる自律ロボットの開発を取り巻く説明を検討します。自律ロボットは危険な状況で人間の労働者を保護することができますが、これらのシステムの信頼される操作を可能にするため

説明可能強化学習方策勾配 (PPO / A3C)
用途
危険環境でのロボットの自律性
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

この研究では、協力的なチーム内における安全な行動の実行を可能にするフレームワークを提案します。これは、行動が動的制約にも合わずに、安全かつ機能する結果を生み出すことを保証しています。

強化学習方策勾配 (PPO / A3C)
用途
協力的なチーム内における安全な行動の実行
難易度
Hard
コスト
Medium
githubGitHubあり2026-05-29

PaLM-rlhf-pytorch — Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと

深層学習Transformer強化学習
用途
LLMのトレーニングデータと人間のフィードバック
難易度
Easy
コスト
High
arxivPaper only2026-05-22

Super Condorcet Winners and Limit Coalitional Manipulability of IRV

単一候補者の選挙結果の正当性を確立するために、投票結果が多数決規則に基づく選挙結果とはどのように関連しているかを研究します。ここでは、複数候補者の選挙において選挙結果の正当性が確立されていく過程について、多数決規則から選

強化学習
用途
協力的な投票決定に不可欠な複数候補者に対する選挙結果の正当性
難易度
Hard
コスト
Medium
arxivPaper only2026-05-22

Deception and Counter Deception in Adversarial Graph Traversal Game

この研究では、拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲームを研究します。このゲームでは、エージェントは目標に到達するために最小コストで移動したいと考えていますが、拝視者はエージェントの行動に影響

強化学習
用途
拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲーム
難易度
Hard
コスト
Medium
arxivPaper only2026-05-14

Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games

大規模な不完全情報競争ゲーム(例:スターカフト、ドータ、カウンターストライク)における精査可能な均衡の取得は、sparse rewards と長時間探索のため計算上厄介になっています。この研究では、対手2人ゼロ和(2x0

自然言語処理RAG強化学習
用途
Imperfect Information Games でのSelf-Play探索を加速する
難易度
Hard
コスト
Low