Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback
Existing benchmarks for deep research agents (DRAs) assess only single-shot outputs, ignoring a key question:
- 用途
- 技術検証・論文読解補助
- 難易度
- Easy
- コスト
- Medium
「Agent」の検索結果
16 件Existing benchmarks for deep research agents (DRAs) assess only single-shot outputs, ignoring a key question:
AutoMegaKernel(AMK)は、Hugging Face Llama-family モデルを単一のパフォーマンスを最適化した CUDA Kernalで動作する単一のPersistent Cooperative
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
この論文では、人機協力における分散型コミュニティを考慮するために、新しいフレームワークを提案する。これにより、分散型人機協力がより効果的に設計できる。
Court simulation bridges legal education and judicial practice, yet human-based simulations are costly and dif
Large language model agents increasingly rely on skills: reusable procedural documents encoding workflows, too
Simulation plays a key role in automated robotics research supported by large language models (LLMs). However,
Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it h
Expert writing feedback from experienced researchers is critical for early-career scholars to improve their ma
LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harne
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most
AI benchmarks have well-documented limitations, with prior work examining contamination, saturation, and const
ポーカーはIAの代表的な問題です。しかし、強いエキスパートレベルを達成するために、長時間にわたるトレーニングと解釈が必要とされてきました。LLMを使用すると、トレーニングやソルバーが不要となり、ポーカーをプレイすることが
LLM(大規模言語モデル)を利用してテキストパラメータを最適化するシステムを提案しました。このシステムは、単一のシステムでさまざまなタスク(単一タスク、複数タスク、未知の入力など)を実行可能でした。また、システムは、最適
インスタテストタスクの推論を高速化するために、スケーリングを適用して、推論時間を短縮することができる。