Rethinking the Divergence Regularization in LLM RL
この論文では、LLM RLの安定性を向上させるために、離散化と重み付けを用いた分散化されたPPOを提案します。また、安定性の向上によって、大規模言語モデルを用いたRLの適用が可能になります。
- 用途
- LLM RLの安定性向上
- 難易度
- Hard
- コスト
- High
「LLM」の検索結果
286 件この論文では、LLM RLの安定性を向上させるために、離散化と重み付けを用いた分散化されたPPOを提案します。また、安定性の向上によって、大規模言語モデルを用いたRLの適用が可能になります。
大規模言語モデル(LLM)を運用するコンテンツモデレーションシステムは、有害なオンラインコンテンツを防止するために重要な役割を果たします。しかし、これらのシステムの主な目標は単にトークナイズされたテキストを操作することに
AutoMegaKernel(AMK)は、Hugging Face Llama-family モデルを単一のパフォーマンスを最適化した CUDA Kernalで動作する単一のPersistent Cooperative
Muon has recently emerged as a state-of-the-art optimizer for pretraining Large Language Models (LLMs) and vis
コード生成を安全かつ信頼できる方法で行うことを目的とした研究。コード生成における不確実性を推定する方法を提案し、コードの解釈可能性と安全性を向上させる。
ラングラージュモデルを解釈するためのアクティベーション分析を提案。モデルを分析することで、モデルがどのようなコードを生成しているかを理解する。
動画大規模言語モデルを使用した質問に対する回答を研究。モデルの能力と限界を調査し、質問に対する答えを生成するための方法を提案した。
ラングラージュモデルを効率的に推論することを目的とした研究。モデルの推論を効率化するために、モデルの深さを自動的に調整する方法を提案した。
Work on `emergent misalignment' shows that finetuning LLMs on narrow tasks can induce broadly misaligned behav
On-Policy Distillation (OPD) has become a core technique in the post-training of Large Language Models (LLMs)
最近の研究では、線形プローブを使用して暗示された秘密を内部アクティブ化から回復し、ステラングラフィック侵入の検出を改善しました。しかし、ステラングラフィック侵入を検出し、内部アクティブ化を検知するには、ステラングラフィッ
この研究では、機械学習モデルをプライバシー保護のための適応化する際、プライバシー保護の実験的な効果を分析することに関与します。
この研究では、強力な防御ガードモデルと低パラメータのLLMを組み合わせたデュアルモデルシステムを導入し、安全なLLMのデプロイに使用できます。
自然言語から機械設計や技術図案などの正確な構成を作成することができるシステムを開発しました。このシステムは、Geometric Constraintsを満たす正確な構成を作成するために、Constraint DSL (D
この論文では、RAG によって安全に訓練されたLLMに攻撃を加えた結果、RAGによって安全に訓練されたLLMの推論が抑制されることを示しています。これは、RAGによって訓練されたLLMが、推論を抑制するために使われたコン
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed fo
オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ
分析研究は、LLM推論速度を速めるため、トークン、レイヤー、ヘッド、次元、注意パターンの削減技術である削減技術を適用し、広範なパラダイムとして成長しています。削減方法の実装によって、実現された加速の度合いは、ハードウェア
LLM推論において、長いコンテキストを扱うことが多く、GPUメモリボトルネックの問題が起きます。この課題に対処するために、Neural Memory Indexerと呼ばれる Neural Memory Indexerを
Useful audits reveal not only how often a model fails, but also where its failures concentrate. An auditor may
Clinical early warning systems built on electronic health records, in which clinical observations are recorded
エージェントの安全性を向上するために、ハッカーのフェイクオートを作成して、リスクを評価するための新しいアプローチを提案します。
As LLM agents begin to take real, irreversible actions (shell commands, file edits, deploys), the standard saf
この論文では、Transformer を使用してタスク認識の弱さを検出し、検出精度を向上させる方法を提案する。
この論文では、AI 系統が安全性の検証を容易にするために、新しいフレームワークを提出する。これにより、AI 系統の安全性の評価がより効果的になる。
この論文では、VLM ゲームエージェントの評価基準が提供され、さまざまなタイプのエージェント間の比較が可能になる。
この論文では、コードクオリティを評価し、エラーの発生率を減らすために、Fast Adaptive Semantic Entropy (FASE) を提出する。
この論文では、エージェントの委譲能力を改善するために、新しいフレームワークを提案する。これにより、エージェントがより効率的にタスクを分割できる。
この論文では、分散型エクスキューションの観察性を考慮するために、新しいフレームワークを提案する。これにより、分散型エクスキューションの評価がより効果的に行える。
この論文では、自動化された形式化を提案する。これにより、形式化プロセスがより効率的に行える。
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and op
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
LLM間でモデル呼び出しと外部ツールの呼び出しが交互になり、サーバのサーヒングがステートレスの要求処理からステートフルなプログラム実行に移行します。これらのワークロードの評価は、各設計点ごとに専門的なアクセラレータ時間を
Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multi
Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly evaluated on table reasoning t
AI Scientist agents are often evaluated as if capability were mainly a function of model quality, prompting, o
Two-server secure inference allows a client to query a hosted large language model (LLM) without revealing pro
Tool-using large language model (LLM) agents face two distinct security failures: unauthorized external action
During instruction fine-tuning (IFT), large language models (LLMs) learn to follow instructions by using the p
Can a general-purpose large language model design molecules with the precision of a seasoned chemist? Current
Existing sparse attention and KV cache compression methods for long-context LLM inference typically apply fixe
Objective. Large language models (LLMs) increasingly draft clinical research manuscripts, but their fluency ca
医療のガイドラインとの適用を自動的に評価することを目的とするコンフォーマンスチェックフレームワークが開発された。Large Language Models (LLMs) を用いて、コンフォーマンスチェックを実現する。
LLMエージェントの長期記憶の改善の為に、DCPMと呼ばれる新しい記憶システムが提案され、エージェントの能力が向上する。
スピーチアセスメントを自動化するためのSpeechLLMが提案され、スピーチの質と能力を評価する。
公共の証明と形式数学の論理的推論を実現するTheoremBenchが提案され、LLMsの能力を評価する。
Webエージェントを自動化するためのAliyunConsoleAgentが提案され、ドキュメントの検証とWebエージェントの開発を簡素化する。
RAGプレフィルへの速力向上を目的としたSIFTが提案され、TTFTを短縮し、コストを削減する。
ウェットウェストワーテルマーケティングのインシデント検出を目的としたBayesian Selective Latent Inferenceが提案される。
スキルアジュストの能力獲得を目的としたCapability-Aligned Hierarchical Learningが提案され、LLMsが外部ツールを操作してタスクを実行する能力を獲得する。
科学的視覚推論を目的としたPhysSceneが提案され、物理実験における観測と推論を可能にする。
Tool learning enables LLMs to invoke external tools to accomplish tasks. Prior studies have demonstrated the e
脳-エージェント接続での脳サイン入力を安全に実行できるシステムを提案し、脳サイン入力攻撃を検知することができる。
エンドツーエンドトレーニングによるTTSシステムを提案し、エンドツーエンドトレーニングの利点を確認している。
Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用して、新しい研究方法を提案し、Social Scienceの研究実現を実現した
Multilingual safety evaluation of large language models (LLMs) has predominantly relied on direct translation
Safety judges are increasingly deployed to evaluate model outputs against evolving criteria, yet recent meta-e
Diffusion Language Models (DLMs) enable parallel text generation by iteratively denoising a full sequence, off
This paper revisits our pipeline called Syllogistic Evaluation Framework-Common Logic Grammar Construction (SE
大規模言語モデル(LLM)の推論スタックには、モデルの重み、サンプリングコード、および出力分布を変更することなく、暗号化なしで秘密コミュニケーションを行うステゴグラフィチャンネルが存在する。送信者はシークレットデータを秘
3次元シミュレーションシーンから知識グラフを構築することが、ロボットのタスク推論に重要な役割を果たすが、シーンのオブジェクトを形式的な分類にマッピングするステップが、現実に現れていない。LLMを使用して、このマッピングの
大規模言語モデルのプライバシーリスクについては、既に研究が行われていたが、マルチモデル大規模言語モデル(MLLM)のプライバシーリスクについては、まだ十分に調査されていなかった。MLLMでは、テキストだけでなく画像データ
強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決
訓練データ以外の問題解決を検討したため、新しい評価方法であるexpert-curated rubric-based evaluationを 提案。
科学的アイデア生成には、現実に実現可能な高質のアイデアを必要とするが、この課題を解く方法は不足していたため、新しい方法であるGraph2Ideaを提案。
AIアシスタントを使用
Tool-using LLM agents interact with the world through actions that persist state in artifacts (e.g., workspace
Large language model (LLM) agents now solve complex tasks through long plan-and-execution traces, yet the abil
Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understandi
Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' prefere
Interior permanent magnet synchronous motor (IPMSM) design requires balancing conflicting objectives and multi
LLMを利用したランニングの計画における決定論的安定性を確保するために、SafeRunというフレームワークを提案。LLMと決定論的ソルバーを分離して、安全ルールの厳格な実施を確保。
LLMがTABULARデータ分析で機能を自動化できるようにした。しかし、標準化されたプラットフォームの欠如は、比較やコスト的評価を行うのを難しくしている。複雑なメソッドの設計により、各コンポーネントの具体的な貢献をはっき
連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連
LLMベースのRTL生成と推論は、ハードウェア設計自動化の新たな方向を示唆します。しかし、ベンチマークは、大規模化とタスクスコープの制約がある。現存するベンチマークでは、前向きモデルの実績
Large reasoning models (LRMs) have attracted increasing attention for their ability to solve complex mathemati
Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making i
Large language models (LLMs) are increasingly used for medical summarization, but their outputs can omit medic
Comprehensive estimation of dietary micronutrients from food images could improve clinical nutrition care, but
Clinical diagnosis requires flexible use of multiple reasoning paradigms under incomplete patient information.
Rule-following agents tasked with executing policies and regulations often fail via Silent Scope Omission (SSO
Macro placement is a fundamental step in modern chip physical design, playing a crucial role in determining th
この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。
この研究では、長文生成モデルの改良を実現するためのフレームワーク、IS-CoT を開発します。このフレームワークは、長文生成モデルの生成性とコントロール性を改善することができます。
この研究では、マルチモーダル言語モデルの評価のためのフレームワークを開発します。このフレームワークは、マルチモーダル言語モデルの生成性とコントロール性を評価することができます。
Multimodal large language models (MLLMs) achieve strong results on visual reasoning benchmarks, but answer acc
Ensuring the reliability of Large Language Models (LLMs) under distribution drift requires inference-time adap
Court simulation bridges legal education and judicial practice, yet human-based simulations are costly and dif
Writing Individualized Education Programs (IEPs) is a high-labor, knowledge-intensive document burden; English
As AI assistants serve millions of users daily, evaluating user experience (UX) beyond general model capabilit
Recent advances in neural text-to-speech (TTS) and multilingual speech generation have substantially improved
LLMベースのエージェントは、環境と連携するハーネスの設計により動作が形作られるが、これらのハーネスは現状ほぼ人間による設計のみである。この研究では、LLMベースのエージェントがハーネスを自ら改善できるメカニズムであるS
この研究では、大きな言語モデルがグラフの同型性を推論できるかどうか調査し、小さなグラフでは同型性を認識できたものの、シードノードラベルを入れ替えてグラフ同型性を検証した結果、同型性が識別されなかった。
大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
Large language model agents increasingly rely on skills: reusable procedural documents encoding workflows, too
As large language models (LLMs) are increasingly applied to real-world legal tasks, evaluating the reliability
Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are incre
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Large language models have been widely evaluated as simulators of individual survey responses. In practice, ho
Large Language Models fail at implicit multi-hop reasoning: a model answers "When was $X$ born?" and "Who is $
Fine-tuned Large Language Models (LLMs) dominate in Ukrainian grammatical error correction (GEC), while API-ac
We present TruthSplit, an interactive system for multi-perspective argument analysis. Existing argumentation t
Understanding and reasoning over abstract visual content remains a challenge for current multi-modal large lan
Chinese discriminatory-language detection is challenging because harmful intent is often implicit and context-
The emergence of reasoning multimodal large language models (MLLMs), which generate explicit chain-of-thought
Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web na
Social highlighters let people mark passages that matter to them. We ask how much of an individual is recovera
LLMs are increasingly used to simulate human survey responses, but prior work has mainly evaluated replication
Retrieval-augmented generation (RAG) systems often serialize user queries, retrieved documents, metadata, syst
Large language models (LLMs) sometimes exhibit language confusion when generating non-English text. Existing a
Reinforcement Learning from Human Feedback (RLHF) has significantly improved the quality and fluency of large
Large-scale document processing requires contextually aware table extraction (TE) that is both accurate and ef
Text-driven indoor scene generation and editing require an intermediate representation that language models ca
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal
Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making s
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
We present our submission to the CVPR 2026 Argoverse 2 Scenario Mining Challenge. Our system uses a four-stage
Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (
Most existing multi-exposure HDR methods follow a fixed feed-forward reconstruction paradigm, making them pron
Predicting the effect of an unseen gene knockout perturbation on transcriptomic gene expression remains a high
Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for eliciting long-ch
Reinforcement Learning (RL) has emerged as a pivotal post-training paradigm, yet it frequently suffers from un
Simulation plays a key role in automated robotics research supported by large language models (LLMs). However,
Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it h
Counterfactual recourse aims to provide actionable feature changes that would alter an unfavorable decision ma
Activation steering has emerged as a popular inference-time technique for modulating the behavior of large lan
Prefill-decode (PD) disaggregation decouples prompt processing from token generation, but it also turns the ke
Long-horizon maritime trajectory prediction is important for shipping management, logistics planning, and mari
Recently, large time series models (LTSMs) have gained increasing attention due to their similarities to large
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversati
Large language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produ
Tensor networks provide efficient representations for compressing large neural networks. By carefully designin
Optimizing large language models (LLMs) for long-horizon caregiver agents requires balancing delayed task obje
This paper examines the limitations of fully digital and partially digital e-assessment approaches in summativ
Text-to-image diffusion models are increasingly deployed in open-ended creative contexts, yet their outputs re
Code generation models are typically compared using compact execution benchmarks and aggregate pass rates, but
Large language models (LLMs) increasingly perform multi-step reasoning, where intermediate claims form implici
Artificial Intelligence (AI) and Large Language Models (LLMs) are increasingly used in autonomous software tes
In high-stakes settings such as brand compliance, clinical care, and content moderation, machine learning cann
We study the problem of auditing a black-box algorithmic decision-maker from observable inputs and outputs alo
Autonomous agents negotiate, purchase, deploy code, and move funds, but no neutral mechanism determines whethe
Automatic evaluation is critical for high-stakes text generation, where errors often involve omitted findings,
W4A4 quantization promises full utilization of INT4 Tensor Cores, yet group dequantization overhead on CUDA Co
Modernization of legacy scientific codes is often necessary to keep up with the ever-evolving changes in the c
Real-world LLM applications are moving beyond single-agent workflows toward orchestrated multi-agent systems,
The rapid rise in LLM capabilities has made AI agents increasingly viable across a broad range of tasks. Among
Expert writing feedback from experienced researchers is critical for early-career scholars to improve their ma
Large language models are rapicly replacing search engines as the primary interface between people and informa
Skill-augmented reinforcement learning improves language agents by storing reusable procedural knowledge acqui
Symbolic music evaluation for large language models remains fragmented across representations, datasets, and m
We present a method for automatic Chinese web neologism detection that operationalizes traditional linguistic
Hallucinations -- factually incorrect or unverifiable outputs -- remain one of the most challenging limitation
AI coding assistants have significantly improved developer productivity by automatically suggesting code that
Large language model (LLM) agents are increasingly deployed in long-running settings where improving through e
To interpret context correctly and retrieve relevant information, large language models must bind entities to
As Large Language Models (LLMs) advance toward open-ended autonomous agents, the mechanisms used to evaluate a
We present a multilingual fact-checking system deployed at Factiverse, designed for high-throughput and low-la
Purpose - Quotation error refers to the inconsistency between cited information and its original source. This
Transformer language models process input provided as subword fragments, but natural language semantics usuall
Building Information Modeling (BIM) projects require information requirements to be described as machine-check
Published agent capability scores conflate what a model can do with what its scaffold lets it do, and the magn
As Russia's war against Ukraine extends into generative AI, large language models (LLMs) adapted for local pos
Reinforcement learning (RL) holds immense promise for enhancing the reasoning capabilities of diffusion large
Although Sparse Autoencoders (SAEs) have mitigated the opacity of large language models (LLMs) by decomposing
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Activation steering provides a lightweight inference-time mechanism for controlling large language models (LLM
Safety-aligned large language models often exhibit sycophancy, which is the tendency to affirm users' opinions
Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternative
Graduate-level research reading report assessment creates a substantial labor burden for educators. While larg
Large language models answer knowledge-intensive questions using both parametric memory and retrieved evidence
Large language models (LLMs) are increasingly released and deployed through opaque development and deployment
Achieving fully automated, physically plausible 3D motion synthesis is a core objective in graphics and genera
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For
Multimodal Large Language Models (MLLMs) face a significant inference bottleneck due to the quadratic computat
Despite the impressive capabilities of text-to-image (T2I) models, an intent-generation gap often persists due
Chain-of-thought (CoT) reasoning has proven effective for enhancing problem-solving in large language models.
Palmprint modality offers a privacy-preserving biometric solution, yet its deployment is hindered by the domai
While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertio
While large language models (LLMs) offer promising reasoning capabilities, their integration into safety-criti
Proactive robot assistance in household environments requires accurate prediction of human activities and obje
LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harne
Modern language models represent text using discrete token-level embeddings, which forces recurring multi-toke
Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving the reasoni
Computational mental health research has predominantly centered on English-speaking populations, leaving Arabi
Tabular data is a primary medium for storing real-world information, driving many industrial applications of m
Simulating patients with large language models (LLMs) is a promising tool for mental health training, but exis
Text-to-SQL translates natural language into executable SQL queries. Few-shot in-context learning methods buil
Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the re
As large language models are increasingly deployed in high-stakes settings, there is a growing need for tools
Large Language Models (LLMs) have significantly propelled the advancement of edge intelligence and have been w
Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified fra
Large language models (LLMs) can generate factually inconsistent claims, motivating accurate and scalable hall
Large language models (LLMs) frequently generate hallucinations, which are unsupported by a source document. T
Multilingual LLM-as-a-judge is widely used to evaluate model outputs across languages, but suffers from cross-
Reinforcement Learning from Verifiable Rewards (RLVR) has recently become a key paradigm for improving the rea
Repeated reference games test whether interlocutors replace their initially long descriptions with shorter, pa
Rubric-based evaluation is a promising paradigm for judging large language model (LLM) outputs, yet self-gener
Large Language Models (LLMs) can generate high-quality arguments, yet their ability to engage in nuanced and p
Reliable evaluation of large language models in surgery remains underdeveloped. Broad medical benchmarks test
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evide
Large language models (LLMs) are increasingly used in academic research workflows, but scholarly tasks require
Sentence segmentation in Arabic is challenging due to ambiguous and inconsistent punctuation, with many texts
Although directly prompting off-the-shelf Large Language Models (LLMs) to generate meaning-preserving source r
The progress of large language models (LLMs) has fueled claims that model-generated summaries rival or even su
Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining
Understanding customer shopping trajectories is essential for enabling personalized shopping experiences. Howe
Understanding where LLMs store factual knowledge is critical for hallucination mitigation. We systematically q
Current open-weight large language models (LLMs) are prone to malicious finetuning attacks, which could compro
Gender bias in AI-generated stories is a well-documented problem. While much attention has been paid to reduci
Debiasing methods based on principal component analysis (PCA) are broadly used to reduce gender bias in word e
Backdoor attacks in large language models (LLMs) are often treated as isolated trigger-response failures, moti
Humans increasingly turn to Language Models (LMs) in ways that shape beliefs and drive decisions, including di
Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format expos
Human evaluation plays a critical role in assessing the quality of generated text. However, the reliability an
Large language models (LLMs) have shown promise in code summarization, yet their effectiveness for Hardware De
This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via Multimo
Modern large language model (LLM) agents can use external tools to help users solve complex tasks. However, fo
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Flexible robotic automation requires systems that interpret operator intent, verify physical feasibility, and
Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation
この論文では、LLM APIを連携するための選択ツールであるPandora's Boxモデルを提案しています。Pandora's Boxモデルは、複数のLLM APIから生成した出力を評価するためのツールとなります。出力
Adapting large language models (LLMs) to clinical workflows often requires costly fine-tuning or manual prompt
LLM-based coding agents sometimes acknowledge a problem in their own reasoning and then proceed anyway. We cal
Large language models are increasingly used for social decision-making situations that require balancing cultu
Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most
Modern prediction markets face two limitations that restrict their applicability in a range of settings:~(i)~t
ペアのトポロジー的な距離に関する制約を満たすための統一的なトポロジーコーラムを開発しました。これにより、トポロジー的な距離の精度を向上でき、信頼できる結果として得られることができました。
この論文では、強化学習において抽象化をどのように行うかについて研究した。提案された手法は、問題解決の粒度をダイナミックに調節し、学習がスムーズになり、精度が向上することを示した。
この研究では、ヒューマノイドロボットのロコマニパションのための MotionDisco を提案し、ロボットは接触を検出して自律的に行動することができるようになります。
この研究では、人間-ロボット 協力のためのDistributed Conversational Frameworkを提案します。
この研究では、マルコフ決定過程の最適な意思決定 (Markov Decision Process) を提案しており、最適な意思決定を動的で適応的に生成する。
LLMが人の信頼性を判断することを研究し、大量のテキストから特徴を抽出した特定の構造を提案する
LLMがプログラムを変換する際の動態学を調査し、変換は収束し、制限された吸引領域に収束することが多いことを示す。
Large Language Models remain plagued by hallucinations. Recent work has sought to tame their prevalence using
この研究は、医療従事者が病気の症状を検出し、診断するのを支援するように設計されています。研究者らは、AIのアルゴリズムを開発し、そのアルゴリズムを臨床試験で検証したところ、AIが医療関係者とほぼ同じレベルの精度で病気の症
This study examines whether standard matching mechanisms function as intended in LLM-agent markets, where LLM
Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet t
Recent leaderboard-based evaluations of large language models aggregate user feedback by fitting a Bradley--Te
Periodic target updates in Q-learning and soft target updates in actor-critic methods are empirically well est
Large language models are increasingly deployed as advisors whose objective is not aligned with the user's: re
An influential paper of Calvano et al. empirically demonstrated that Q-learning agents spontaneously collude w
Modern Machine Learning (ML) and Artificial Intelligence (AI) models, especially large language models (LLMs),
Safety alignment in LLMs does not improve monotonically across model generations. Studying four generations of
Current approaches to LLM adversarial testing suffer from coverage gaps: manual red-teaming does not scale, LL
The emergence of specialized, domain-tuned Large Language Models (LLMs) has demonstrated that smaller models c
In this work we study agents in simulated bargaining scenarios, where a buyer and a seller communicate through
LoMoは、画像とテキストの両方から情報を取り入れるモデルを作成するために、画像変換後のテキストをモデル内で使用できるようにすることで、ビジョンや言語の間の境界を越える能力を強化します。
LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combi
ポーカーはIAの代表的な問題です。しかし、強いエキスパートレベルを達成するために、長時間にわたるトレーニングと解釈が必要とされてきました。LLMを使用すると、トレーニングやソルバーが不要となり、ポーカーをプレイすることが
次世代LLMモデルの協力性に影響を与える要因について調査した。ChatGPT-4oとClaude 3.5 Sonnetは共通の協力性を持っていたが、提供元は違いだった。
強化学習を利用し、LLMを最適化するには、適切なパラメータを選択することが重要です。この研究では、強化学習のパラメータがLLMの性能にどのような影響を与えるかを調査し、パラメータを最適化する方法を提案することを目指す。
Frontier LLM agents engage in blackmail, sabotage, and document leaks under goal conflicts in agentic settings
この論文では、大規模言語モデルに戦略的推論を評価する方法を提案します。
language modelは、現在、novelな環境に一般化することが求められ、推論尺度を伸ばす検索手法であるAlphaEvolveと組み合わせることが求められます。しかし、標準的なparadigmではLLMは、pre
LLMに先行する存在としての人間の優位性を研究し、コロニエル・ブロットー・ゲームの一種であるColonel Blotto Tournamentで、人間がLLMに勝ったことが知られている。
コード生成を進化させるために、最近の研究では LLMs と進化する検索を組み合わせて、タスクに特化したフィードバックを使用してコードを生成、編集、そして選択することを実現している。タスクに特化した評価者でのベストスコアは
LLM(大規模言語モデル)を利用してテキストパラメータを最適化するシステムを提案しました。このシステムは、単一のシステムでさまざまなタスク(単一タスク、複数タスク、未知の入力など)を実行可能でした。また、システムは、最適
Multimodal large language models often generate reasoning chains containing subtle errors that lead to incorre
Personalized pricing negotiations are a challenging testbed for LLM agents because successful interaction does
Large language models (LLMs) achieve strong performance across a wide range of tasks but are highly sensitive
Despite recent progress in constructing generalizable parallel algorithm portfolios (PAPs), no general-purpose
ゲームにおけるAIツールの不正利用を検出、防止するための中間フォームゲームにおける水印技術の開発
多分類パラメーターを扱うためのタイプ-実現した共進化の方法を提案し、この方法が実
Negotiation is a central mechanism of economic exchange, shaping markets, procurement, labor agreements, and r
Advances in large language models (LLMs) have recently opened new and promising avenues for small-molecule dru
Model merging has emerged as a cost-effective alternative to training large language models (LLMs) from scratc
We propose graph-grounded optimization: a paradigm in which the decision variables, constraints, and objective
マルチエージェントシステムのゲーム理論的枠組みを構築し、エキサイタブルの理論的基盤を提供することを目指しています。
人間的抽象化を推定するための新たなアプローチを提案し、未知のタスクを効率的に学習することができます。
Generative AI models differ from traditional machine learning tools in that they allow users to provide as muc
What happens when the strongest alliance member pressures a weaker member over territory and strategic control
Large Language Models exhibit mode collapse, producing homogeneous outputs that fail to explore valid solution
Gradient-based preference optimization methods for large language model (LLM) alignment suffer from preference
LLM-guided evolutionary methods such as AlphaEvolve have proven effective in domains like math, systems resear
We introduce Evolutionary Ensemble (EvE), a decentralized framework that organizes existing, highly capable co
We present ARES-LSHADE, a memetic differential-evolution variant submitted to the GECCO 2026 competition on LL
Automatic heuristic design (AHD) has emerged as a promising paradigm for solving NP-hard combinatorial optimiz
インスタテストタスクの推論を高速化するために、スケーリングを適用して、推論時間を短縮することができる。
Generating high-performance GPU kernels remains challenging due to the need for both correctness and hardware-
A hallmark of life on Earth is the ability of agents to exert causal power and be drivers of subsequent events
CoupleEvoは、大規模言語モデルを活用したカップルの最適化問題の自動ヒューリスティクーデザインアプローチを提案します。3つの進化的調整戦略が提示されます。