114 articles

Category

強化学習

PPO、モデルベースRL、RLHFなど、制御・最適化・エージェント設計に関係する技術を扱います。

モデルフリー (DQN / SAC)方策勾配 (PPO / A3C)モデルベースRLHFマルチエージェント

人気記事

新着記事

未読 114
githubGitHubあり2026-06-09

paperless-ngx — A community-supported supercharged document management system: scan, index and archive all your documents

paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。

強化学習方策勾配 (PPO / A3C)分類テキスト
用途
ドキュメント管理
難易度
Easy
コスト
Low
arxivPaper only2026-06-08

Topological Neural Operators

この研究では、トポロジカルニューラルオペレータ(TNO)としてのニューラルネットワークの学習を可能にする方法を提案しました。TNOは、セル複素上のデータに基づいて、オペレータを学習し、クロス-次元的な結合を可能にします。

強化学習方策勾配 (PPO / A3C)
用途
トポロジカルニューラルオペレーターの学習
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは

強化学習方策勾配 (PPO / A3C)テキスト
用途
攻撃の応答
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Shape Formation for the Cooperative Transportation of Arbitrary Objects Using Multi-Agent Reinforcement Learning

マルチロボットシステムを用いた物体の輸送は多くの分野、産業から家庭までで不可欠なタスクです。一度の輸送タスクをロボット数台の輸送タスクに分割しそこまでの各タスクを個別に解決します。物体は実際には形状や質量分布が非一様で、

強化学習方策勾配 (PPO / A3C)
用途
マルチロボットで物体の協力的な輸送
難易度
Hard
コスト
Medium
githubGitHubあり2026-06-06

Awesome-Process-Reward-Models — A comprehensive collection of process reward models.

医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推

強化学習RLHF
用途
医療における画像の比較
難易度
Easy
コスト
Medium
arxivPaper only2026-06-05

Automatic, Debiased, and Invariant Counterfactual Generation under General Interventions

Generative models for counterfactual outcomesは、決定をサポートするために複雑な干渉に対して、潜在的な結果を生成するための優れたポテンシャルを持っています。しかし、対象外データ

強化学習方策勾配 (PPO / A3C)生成回帰
用途
再現性の低いデータに対して対象外データの生成
難易度
Hard
コスト
Medium
arxivPaper only2026-06-05

On orbital stabilization of a circular motion primitive for a dynamic extension of the Dubins car model

この論文では、Dubins車モデルの動的拡張に基づく円形運動原理の軌道安定化を扱った。軌道安定化を実現するために、非線形化の手法とコントローラ設計の条件を提案し、非線形化の手法が安定化につながることを確認した。

強化学習
用途
軌道安定化の開発
難易度
Hard
コスト
Medium
arxivPaper only2026-06-05

An Abstract Architecture for Explainable Autonomy in Hazardous Environments

この論文は、人間の労働者が自律ロボットを使用および制御できる自律ロボットの開発を取り巻く説明を検討します。自律ロボットは危険な状況で人間の労働者を保護することができますが、これらのシステムの信頼される操作を可能にするため

説明可能強化学習方策勾配 (PPO / A3C)
用途
危険環境でのロボットの自律性
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

この研究では、協力的なチーム内における安全な行動の実行を可能にするフレームワークを提案します。これは、行動が動的制約にも合わずに、安全かつ機能する結果を生み出すことを保証しています。

強化学習方策勾配 (PPO / A3C)
用途
協力的なチーム内における安全な行動の実行
難易度
Hard
コスト
Medium
arxivPaper only2026-05-22

Super Condorcet Winners and Limit Coalitional Manipulability of IRV

単一候補者の選挙結果の正当性を確立するために、投票結果が多数決規則に基づく選挙結果とはどのように関連しているかを研究します。ここでは、複数候補者の選挙において選挙結果の正当性が確立されていく過程について、多数決規則から選

強化学習
用途
協力的な投票決定に不可欠な複数候補者に対する選挙結果の正当性
難易度
Hard
コスト
Medium
arxivPaper only2026-05-22

Deception and Counter Deception in Adversarial Graph Traversal Game

この研究では、拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲームを研究します。このゲームでは、エージェントは目標に到達するために最小コストで移動したいと考えていますが、拝視者はエージェントの行動に影響

強化学習
用途
拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲーム
難易度
Hard
コスト
Medium