MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「Agent」の検索結果

11 件

すべて arxiv github huggingface 実装あり

arxivGitHubあり2026-07-23

Agentic coding without the cloud: evaluating open-weight large language models on longitudinal data preparation tasks

Large language models (LLMs) and agents are now widely used tools in code development, with data typically sen

自然言語処理大規模言語モデルテキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-23

pAI-Econ-claude: A Gated Human-in-the-Loop Multi-Agent Architecture for AI-Assisted Economic Theory Development

この研究では、大規模言語モデルを活用して、経済学の研究活動をサポートするシステムを開発しました。このシステムは、学者が理論モデル開発を自動化することができます。

自然言語処理大規模言語モデル生成

用途: 経済学の研究支援システム
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-23

Workflow-Localized Mechanism Learning: Attribution-Guided Repair and Knowledge Reuse for Structured Agent Skills

Agent Skills package reusable procedural knowledge as external artifacts for frozen language-model agents, yet

MI向き強化学習方策勾配 (PPO / A3C)

用途: 技術検証・論文読解補助
難易度: Hard
コスト: Medium

→

arxivGitHubあり2026-07-22

ArbiGraph: Arbitrarily Scalable Verifiable Task Graphs for Evaluating Context Management

We introduce ARBIGRAPH, a benchmark generator for evaluating whether tool-assisted language agents can retain,

MLOpsモデルデプロイテキスト

用途: 技術検証・論文読解補助
難易度: Easy
コスト: Medium

→

arxivGitHubあり2026-07-22

PRO-LONG: Programmatic Memory Enables Long-Horizon Reasoning

Long-horizon tasks require sustained perception, reasoning, and exploration, and are a persistent challenge fo

深層学習軽量化・量子化テキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-22

Silent Failures in Multimodal Agentic Search:A Diagnostic Taxonomy and Cross-Judge Evaluation

この研究では、可視化された質問への対応を評価するために、新しい方法を提案しました。この方法は、質問への回答の正確性だけでなく、質問への回答のパターンや特徴も評価することができます。

品質予測/異常検知コンピュータビジョンマルチモーダルQA画像

用途: 可視化された質問への対応を評価する
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-22

ReferTrack: Referring Then Tracking for Embodied Visual Tracking

ReferTrack は、自然言語で対象の車両に付近する自動車を追従させるシステムである。このシステムでは、対象の車両に付近する自動車を認識する後、自動車の動きを予測する。

自然言語処理プロンプトエンジニアリング検出画像テキスト

用途: 自動車が対象の車両に付きそわせるシステム
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-21

Knowledge-Centric Self-Improvement

知識を重視した自己向上の研究を実施し、自己向上を知識を重視することにより効果的に行う方法を提案した。

深層学習軽量化・量子化

用途: 知識を重視した自己向上
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-21

AutoIndex: Learning Representation Programs for Retrieval

リカバリーのためのプログラムを学習するフレームワークを提案し、そのプログラムを用いて、文書にラベルを付与する検索システムを構築する。

品質予測/異常検知自然言語処理RAGテキスト

用途: リカバリーのためのプログラムの学習
難易度: Easy
コスト: Low

→

arxivGitHubあり2026-07-20

UniETP: Unifying Environments for Generalizable Embodied Task Planning

This paper focuses on the problem of Embodied Task Planning, where an agent is required to execute a sequence

自然言語処理RAG

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivGitHubあり2026-06-28

When LLMs Develop Languages: Symbolic Communication for Efficient Multi-Agent Reasoning

Chain-of-Thought (CoT) improves large language models (LLMs) on difficult reasoning tasks, but it often incurs

MI向き深層学習軽量化・量子化テキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→