Agent」の検索結果

244
arxivPaper only2026-06-08

An Agency-Transferring Model-Free Policy Enhancement Technique

助け手モデルは、タスクの成果を最大化するために設計されていますが、実際には不適切または不完全な助け手モデルを使用している場合があります。この論文では、元の助け手モデルをRLのトレーニングプロセスに組み込むことで、トレーニ

自然言語処理埋め込み・検索強化学習
用途
助け手モデル改良
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは

強化学習方策勾配 (PPO / A3C)テキスト
用途
攻撃の応答
難易度
Hard
コスト
High
arxivPaper only2026-06-08

LargeMonitor: Monitoring Online Task-Free Continual Learning via Large Pretrained Models

オンライン学習の継続学習では、モデルは非駅性データ ストリームから知識を継続的に蓄積する必要があります。モデルのパラメータはトレーニング中に効果的に調整される必要がありますが、パラメータ効率的なプロンプト チューニングや

深層学習軽量化・量子化検出テキストマルチモーダル
用途
オンライン学習の継続学習
難易度
Hard
コスト
High
arxivPaper only2026-06-08

AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

LLM間でモデル呼び出しと外部ツールの呼び出しが交互になり、サーバのサーヒングがステートレスの要求処理からステートフルなプログラム実行に移行します。これらのワークロードの評価は、各設計点ごとに専門的なアクセラレータ時間を

自然言語処理大規模言語モデルテキスト
用途
LLMのサーバー処理のためのシミュレータ
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Shape Formation for the Cooperative Transportation of Arbitrary Objects Using Multi-Agent Reinforcement Learning

マルチロボットシステムを用いた物体の輸送は多くの分野、産業から家庭までで不可欠なタスクです。一度の輸送タスクをロボット数台の輸送タスクに分割しそこまでの各タスクを個別に解決します。物体は実際には形状や質量分布が非一様で、

強化学習方策勾配 (PPO / A3C)
用途
マルチロボットで物体の協力的な輸送
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

MASS: Deep Research for Social Sciences with Memory-Augmented Social Simulation

Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用して、新しい研究方法を提案し、Social Scienceの研究実現を実現した

品質予測/異常検知深層学習Transformer生成テキスト
用途
Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用した研究の実現
難易度
Hard
コスト
High
arxivPaper only2026-06-08

The Token Not Taken: Sampling, State, and the Variability of AI Agent Outputs

Agentic AIシステムの不確実性が、同じ要求から異なる計画、ツールの呼び出しなどが生成されることを示唆している。このようにしてシステムの信頼性を確保するには、AIエージェントのパラメータを確立することが重要となる。

コンピュータビジョンセグメンテーション生成テキスト
用途
AIエージェントのパラメータの確立に寄与する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning

Vision-and-Languageナビゲーションエージェントは、言語指示に従って環境を探索できる。Zero-shot Vision-and-Languageナビゲーションエージェントには、未知の環境における安全性と信

深層学習軽量化・量子化検出画像3D
用途
バイオインフォマティクスのための零-shot Vision-and-Languageナビゲーションエージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連

コンピュータビジョンマルチモーダルQA画像テキスト
用途
統合医療医系のためのLLMベースの医療エージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

IS-CoT: Breaking the Long-form Generation Collapse via Interleaved Structural Thinking

この研究では、長文生成モデルの改良を実現するためのフレームワーク、IS-CoT を開発します。このフレームワークは、長文生成モデルの生成性とコントロール性を改善することができます。

品質予測/異常検知自然言語処理大規模言語モデル生成テキスト
用途
長文生成モデルの改良
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Self-Harness: Harnesses That Improve Themselves

LLMベースのエージェントは、環境と連携するハーネスの設計により動作が形作られるが、これらのハーネスは現状ほぼ人間による設計のみである。この研究では、LLMベースのエージェントがハーネスを自ら改善できるメカニズムであるS

自然言語処理大規模言語モデル回帰
用途
LLMのハーネスの自動改善
難易度
Hard
コスト
High
arxivPaper only2026-06-08

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ

自然言語処理大規模言語モデル生成テキストマルチモーダル
用途
マルチモーダル記憶の評価
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Beyond Waypoints: A Trajectory-Centric Waypointing Paradigm for Vision-Language Navigation

この研究では、自然言語指示を実行するためにもっと実際的なエンベロイメントにおいて、視覚言語航行 (VLN) の問題に対処します。従来の 3 つのステージのアプローチは、目的地に到達するのを困難な場所や、計画と制御間の矛盾

コンピュータビジョンマルチモーダル生成
用途
自動車のトラクタシー
難易度
Hard
コスト
High
arxivPaper only2026-06-04

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

HANDOFFは、人間を模倣するロボットの制御を実現するために構築されたフレームワークです。ロボットはタスクを認識し、動作を生成します。HANDOFFは、タスクに合わせて動作を生成するアジエントを形成するために、教師と学

深層学習軽量化・量子化テキスト
用途
人間臭いアジентыのロボット制御を実現
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

この研究では、協力的なチーム内における安全な行動の実行を可能にするフレームワークを提案します。これは、行動が動的制約にも合わずに、安全かつ機能する結果を生み出すことを保証しています。

強化学習方策勾配 (PPO / A3C)
用途
協力的なチーム内における安全な行動の実行
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Learning of Robot Safety Policies via Adversarial Synthetic Scenarios

この研究では、シニティックなシナリオを用いたロボットの安全性ポリシーの学習を提案します。Red TeamとBlue Teamは、プログラミング言語のガミフィケーションフレームワークを用いて、シナリオ生成をアドバレッシアル

深層学習軽量化・量子化生成
用途
ラボットの安全性ポリシーの学習
難易度
Hard
コスト
Low
arxivGitHubあり2026-05-28

PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers

ポーカーはIAの代表的な問題です。しかし、強いエキスパートレベルを達成するために、長時間にわたるトレーニングと解釈が必要とされてきました。LLMを使用すると、トレーニングやソルバーが不要となり、ポーカーをプレイすることが

説明可能自然言語処理大規模言語モデルテキスト
用途
ポーカーゲーム
難易度
Hard
コスト
High
arxivPaper only2026-05-22

Routing Equilibrium in Mixed-Autonomy Traffic Networks with Altruistic Autonomous Agents

自動車の avanzing を進めることで交通システムへの影響を理解することが注目されているが、混雑しやすくオートナミティと非オートナミティの両方の車両が共存する交通環境を研究する必要がある。混合オートナミティの環境をモ

自然言語処理RAG
用途
混合オートナミティ交通システムの経路設定問題
難易度
Hard
コスト
Low
arxivPaper only2026-05-22

Beyond the Half-Approximation: Fair and Efficient Online Class Matching

オンラインマッチング問題では、オブジェクトが事前に知られているが、アイテムが連続して到着し、不可逆的に割り当てられるときに、それらの要件と競合する値を分割するため、複雑性を理解することは重要です。複雑さの増大とともに、複

深層学習軽量化・量子化
用途
オンラインマッチング問題において公平さを確保する
難易度
Hard
コスト
Medium
arxivPaper only2026-05-22

Deception and Counter Deception in Adversarial Graph Traversal Game

この研究では、拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲームを研究します。このゲームでは、エージェントは目標に到達するために最小コストで移動したいと考えていますが、拝視者はエージェントの行動に影響

強化学習
用途
拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲーム
難易度
Hard
コスト
Medium
arxivPaper only2026-05-21

Joint Communication and Computation Scheduling for MEC-enabled AIGC Services: A Game-Theoretic Stochastic Learning Approach

Mobil Edge Computing (MEC)は、端末近くにゲストOSを設置し、AI生成コンテンツを高速化するものです。複数のゲストOS間の通信や計算スケジュールをオフラインで調整するゲーム理論的学習アプローチを提

深層学習軽量化・量子化生成
用途
AI生成コンテンツを高速化する
難易度
Hard
コスト
High
arxivPaper only2026-05-19

What Do Evolutionary Coding Agents Evolve?

コード生成を進化させるために、最近の研究では LLMs と進化する検索を組み合わせて、タスクに特化したフィードバックを使用してコードを生成、編集、そして選択することを実現している。タスクに特化した評価者でのベストスコアは

自然言語処理大規模言語モデルテキスト
用途
コード生成を進化させる問題を解決する
難易度
Hard
コスト
High
arxivGitHubあり2026-05-19

optimize_anything: A Universal API for Optimizing any Text Parameter

LLM(大規模言語モデル)を利用してテキストパラメータを最適化するシステムを提案しました。このシステムは、単一のシステムでさまざまなタスク(単一タスク、複数タスク、未知の入力など)を実行可能でした。また、システムは、最適

自然言語処理大規模言語モデルテキスト
用途
任意のテキストパラメータを最適化することが可能
難易度
Hard
コスト
High
arxivPaper only2026-05-14

Temporal Fair Division in Multi-Agent Systems: From Precise Alternation Metrics to Scalable Coordination Proxies

このリポジトリでは、タイムリーな公平分配に特化した新しいメトリック、Rotational Periodicity(RP)とAltファミリーのスライドウィンドウメトリックを提案します。このフレームワークは、リアルタイムの多

深層学習軽量化・量子化
用途
マルチエージェント系のタイムリーな公平分配
難易度
Hard
コスト
Medium
arxivPaper only2026-05-14

Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games

大規模な不完全情報競争ゲーム(例:スターカフト、ドータ、カウンターストライク)における精査可能な均衡の取得は、sparse rewards と長時間探索のため計算上厄介になっています。この研究では、対手2人ゼロ和(2x0

自然言語処理RAG強化学習
用途
Imperfect Information Games でのSelf-Play探索を加速する
難易度
Hard
コスト
Low
arxivPaper only2026-05-13

Embodied Neurocomputation: A Framework for Interfacing Biological Neural Cultures with Scaled Task-Driven Validation

バイオロジカルニューロン接続とシリコンコンピューティングを統合し、エンボディッドニューロコンピューティشنフレームワークを開発し、ニューラルネットワークとバイオロジカルニューロンを接続するための新しいシステムを提案した。

深層学習軽量化・量子化
用途
バイオロジカルニューロン接続
難易度
Hard
コスト
Medium