An Agency-Transferring Model-Free Policy Enhancement Technique
助け手モデルは、タスクの成果を最大化するために設計されていますが、実際には不適切または不完全な助け手モデルを使用している場合があります。この論文では、元の助け手モデルをRLのトレーニングプロセスに組み込むことで、トレーニ
- 用途
- 助け手モデル改良
- 難易度
- Hard
- コスト
- High
「reinforcement」の検索結果
197 件助け手モデルは、タスクの成果を最大化するために設計されていますが、実際には不適切または不完全な助け手モデルを使用している場合があります。この論文では、元の助け手モデルをRLのトレーニングプロセスに組み込むことで、トレーニ
この論文では、LLM RLの安定性を向上させるために、離散化と重み付けを用いた分散化されたPPOを提案します。また、安定性の向上によって、大規模言語モデルを用いたRLの適用が可能になります。
この研究では、トポロジカルニューラルオペレータ(TNO)としてのニューラルネットワークの学習を可能にする方法を提案しました。TNOは、セル複素上のデータに基づいて、オペレータを学習し、クロス-次元的な結合を可能にします。
この研究では、継続学習における塑性保存を実現するために、ダイナミックアイソメトリを用いて、次世代神経ネットワークの塑性を保存しました。
AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは
安全な強化学習のためのデータの削除を提案。データ ポイズニング攻撃からデータを保護するために、データを削除する方法を提案した。
結合作用を考慮した分子力の予測を研究。モデルの推論を効率化するために、モデルのスケールを自動的に調整する方法を提案した。
この研究では、プレトレーニング済みモデルを低レベルタスクに向けて適応化するためのPrior-Support ガイドされた超視覚的フィニートゥニング方法であるPriFT を提案しました。
この研究では、強化学習のトレーニングに使用するRewardsの検証が難しい場合は、Rewardがグループレベルでは無価値で、グループ間の優劣比較が不可能となる問題に対処するためのReasoning Arenaを提案します
この研究では、長期的なタスクの再帰の信用割当問題に対処するために、長期的なタスクの再帰をサポートするPrivileged Bayesian Self-Distillation (PBSD) を提案します。
On-policy distillation (OPD) trains a student on its own trajectories with dense per-token supervision from a
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
Offline reinforcement learning (RL) offers a path to policy improvement from logged data alone, using historic
Deep reinforcement learning (DRL) frameworks for portfolio optimization have shown promise for their ability t
理論的思考は、最新の基礎モデルシステムが安全かつ効果的に現実世界で動作するには必須のスキルであると考えられています。しかし、理論的思考の進進には、「ショートカット」問題が存在し、タスクは99%の正解率を達成するのに、ただ
オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ
Reinforcement learning from human feedback (RLHF) is bottlenecked by \emph{reward hacking}, where the policy e
Two-stage post-training -- a Stage-1 warm-start (supervised fine-tuning, SFT, or on-policy distillation, OPD)
分析モデルを新しいアームが現れる環境でアップデートすることで、最適なアームを選択できるようになります。
この論文では、人機協力における分散型コミュニティを考慮するために、新しいフレームワークを提案する。これにより、分散型人機協力がより効果的に設計できる。
マルチロボットシステムを用いた物体の輸送は多くの分野、産業から家庭までで不可欠なタスクです。一度の輸送タスクをロボット数台の輸送タスクに分割しそこまでの各タスクを個別に解決します。物体は実際には形状や質量分布が非一様で、
During instruction fine-tuning (IFT), large language models (LLMs) learn to follow instructions by using the p
Webエージェントを自動化するためのAliyunConsoleAgentが提案され、ドキュメントの検証とWebエージェントの開発を簡素化する。
Scene Graphs (SGs) provide structured representations of visual scenes by modeling objects and their pairwise
可変化の帯域幅を考慮した、聴覚超材料の逆設計における新しいフレームワークである Physics-Guided Sequence-Based Generative Framework for Acoustic Metama
自動走行に利用されるAIエージェントを、超バイクの自律走行の実現に使えるようにするフレームワークを提案し、超バイクの自律走行を実現している。
強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決
CloudNetwork Infrastructureの自動的なインシデント解決のため、新しいAgentic AI Architectureを提案。
Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' prefere
連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連
Large reasoning models (LRMs) have attracted increasing attention for their ability to solve complex mathemati
Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning ov
This report summarizes the CHIIR 2026 Workshop on Generative AI and Academic Search (GAI\&AS), which examined
この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。
Dialogue systems in e-commerce scenarios often need to satisfy multiple objectives: accurately reasoning over
Reinforcement Learning from Human Feedback (RLHF) has significantly improved the quality and fluency of large
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
Text based configuration files for cyber-physical systems show the hierarchy of component modules well but oft
Accurate dynamics models are essential for model-based robotic control, yet nominal Euler--Lagrange models oft
Embodied policies typically map current observations directly to actions, leaving candidate-action consequence
Vision-Language-Action (VLA) models have become a powerful framework for robotic manipulation, and recent stud
We present RPO-PDT: a retrieval-grounded, role-play-based dialogue system for adaptive student support in high
Time-of-flight cameras are popular in robotics for providing direct depth information while being compact, ine
Standard Reinforcement Learning with Verifiable Rewards (RLVR) training allocates a fixed rollout budget to ev
Predicting the effect of an unseen gene knockout perturbation on transcriptomic gene expression remains a high
Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for eliciting long-ch
Decision-focused learning has shown great promise for addressing predict-then-optimize problems, particularly
Reinforcement Learning (RL) has emerged as a pivotal post-training paradigm, yet it frequently suffers from un
Long-horizon maritime trajectory prediction is important for shipping management, logistics planning, and mari
We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuou
Unmanned aerial vehicles (UAVs) are increasingly being deployed in logistics, service robotics, and other real
Adaptive beamforming is a cornerstone of array signal processing, yet its performance often collapses in the f
The quality of software engineering is still under a challenge due to disjointed processes between requirement
We study the problem of auditing a black-box algorithmic decision-maker from observable inputs and outputs alo
Quality-diversity reinforcement learning (QD-RL) aims to construct policy repertoires that contain both high-p
Skill-augmented reinforcement learning improves language agents by storing reusable procedural knowledge acqui
Large language model (LLM) agents are increasingly deployed in long-running settings where improving through e
As Large Language Models (LLMs) advance toward open-ended autonomous agents, the mechanisms used to evaluate a
Building Information Modeling (BIM) projects require information requirements to be described as machine-check
Reinforcement learning (RL) holds immense promise for enhancing the reasoning capabilities of diffusion large
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective paradigm for improving the reaso
Reward models play a pivotal role in reinforcement learning (RL) and multi-modal trajectory selection for auto
Diffusion models have become a powerful tool for generative modeling in robotics, with diffusion policies exce
Robots operating in human environments must not only ensure physical safety but also exhibit behaviors that ar
Reinforcement learning (RL) has become a powerful paradigm for robot learning, particularly in sim-to-real set
Robotic manipulation robustness often founders on the physics gap between simplified simulations and the resis
Autonomous Underwater Vehicles (AUVs) traditionally rely on complex, heavily engineered pipelines for percepti
We consider the fair division problem of indivisible chores and resolve the long-standing open problem for the
Reinforcement Learning from Human Feedback via Proximal Policy Optimization often suffers from policy mode col
Optimal transport couplings are probabilistic objects, while many learning pipelines require deterministic map
Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving the reasoni
Reinforcement Learning from Verifiable Rewards (RLVR) has recently become a key paradigm for improving the rea
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
Although directly prompting off-the-shelf Large Language Models (LLMs) to generate meaning-preserving source r
Understanding customer shopping trajectories is essential for enabling personalized shopping experiences. Howe
Large language models (LLMs) have shown promise in code summarization, yet their effectiveness for Hardware De
Enabling humanoid robots to operate in complex, dynamic environments remains a critical challenge, fundamental
Reliable wildlife monitoring is essential for ecology and conservation, yet many existing methods, such as tag
The growing volume of retired lithium-ion battery packs from electric vehicles and portable electronics calls
Model Predictive Control (MPC) is widely used for autonomous-vehicle (AV) motion planning, but its real-time a
Soft-bodied organisms such as octopuses and elephant trunks exhibit remarkable morphological adaptability, dyn
Multi-quadruped coordination has attracted increasing attention due to its enhanced payload capacity, broader
Remote communication technologies have become widely used; however, supporting a sense of shared physical spac
Humans exhibit remarkable motor agility, enabling a wide range of dynamic skills such as running and jumping,
Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the
We propose Q-Guided Value-Gradient Matching (Q-VGM), an off-policy reinforcement learning (RL) method that tac
Whole-body teleoperation is essential for scalable robot data collection in loco-manipulation tasks, yet exist
Performative prediction studies feedback loops that arise when predictive models are deployed in consequential
Scientific machine learning is limited less by model size than by the data it is trained on. Observational dat
Generative models for counterfactual outcomesは、決定をサポートするために複雑な干渉に対して、潜在的な結果を生成するための優れたポテンシャルを持っています。しかし、対象外データ
Path-planning for autonomous vehicles in threat-laden environments is a fundamental challenge because the prob
The object manipulation capabilities of quadruped robots is an open research challenge. While previous studies
この論文では、Dubins車モデルの動的拡張に基づく円形運動原理の軌道安定化を扱った。軌道安定化を実現するために、非線形化の手法とコントローラ設計の条件を提案し、非線形化の手法が安定化につながることを確認した。
The ISO 26262 standard defines functional safety for road vehicles through risk assessments based on Severity,
この論文では、水上ロボットの設計の高速化のための新しい方法を提案した。Gaussian Evolutionary Specialists(GES)を用いた設計システムを用い、ロボットの形状と制御を同時に最適化することがで
この論文では、上肢義手の操業を可能にするビオシグナルなしの制御システムを提案した。IMITATION LEARNINGを用い、シミュレーションを用いて、達成可能な範囲を拡大した。
この論文は、人間の労働者が自律ロボットを使用および制御できる自律ロボットの開発を取り巻く説明を検討します。自律ロボットは危険な状況で人間の労働者を保護することができますが、これらのシステムの信頼される操作を可能にするため
この論文では、Reinforcement Learning(RL)ポリシーを用いて安全ロボット制御を実現した。Shield-Locoは、安全な制御を提供するための予防的安全フィルタリングを実装し、ロボットの安全な行動を導
Reinforcement learning has become the prevailing approach to humanoid locomotion control: policies transfer re
This paper studies runtime safety for autonomous driving when high-level driving commands become faulty or unr
Achieving both anthropomorphic naturalness and robust terrain traversal remains a fundamental challenge in hum
Robots performing long-horizon visual manipulation observe high-dimensional images, but successful plans depen
This paper presents ERNEST, a four-wheeled planetary rover concept equipped with a two-degree-of-freedom Activ
Vehicle-to-vehicle (V2V) communication is expected to improve road safety and reduce congestion. However, prio
Modelling opinion dynamics typically relies on hand-crafted local interaction rules to study emergent macrosco
We design and analyze a deterministic cake cutting algorithm that achieves proportional fairness using a linea
TorchKM is an open-source library for kernel machines, including support vector machines, kernel logistic regr
負のイベントのリスクを受け流すことで個人が極端な負担にならないように、各参加者に信用できる負担金の上限を提供する仕組みを作ります。
この論文では、強化学習において抽象化をどのように行うかについて研究した。提案された手法は、問題解決の粒度をダイナミックに調節し、学習がスムーズになり、精度が向上することを示した。
Neural network (NN)-based nonlinear causal discovery methods recover DAG structure but leave each causal mecha
The question of whether artificial systems can be conscious remains open, in part because existing approaches
この研究では、ロボット操作のスピードの可変性を扱いました。この研究で提案したTempoVLAは、スピードの変化を可能にする強化学習モデルです。
この研究では、ヒューマノイドロボットのロコマニパションのための MotionDisco を提案し、ロボットは接触を検出して自律的に行動することができるようになります。
この研究では、L-SDPPO という方法を提案します。これは、連携型ロボット Manipulation に向けたディフュージョン ポリシーの最適化を実現するものです。
vineロボットが増長する度に、センサやツールをマウントすることが課題。
この研究では、協力的なチーム内における安全な行動の実行を可能にするフレームワークを提案します。これは、行動が動的制約にも合わずに、安全かつ機能する結果を生み出すことを保証しています。
この研究では、空間モデルを構築することで、ドローンの運用を安全かつ効率的に行うことが可能にした。
Two-sided matching markets often involve information that unfolds over time through interviews, repeated inter
The present study provides a closed-form characterisation of Nash equilibria in N-player binary games with uni
この研究では、エネルギー効率の良い空間モデルを構築した。
共同作業を効率化するための空
この研究では、部品割当における完全情報の限られた条件で最適割当を実現する方法を提案します。
この研究では、cooperationmechanismsを利用するためのreinforcementlearningをnetworkcommon-poolresourcgamesに適用します。
In the classic online min-cost matching problem, the goal is to match a sequence of requests that arrive dynam
この研究では、グラフ構造を考慮したグラフ機械学習アルゴリズムを提案しており、特にグラフ構造と多ホップ支援を考慮したリワイアリング技術を提案している。
この研究では、時系列データのペアトレーディング (Dynamic Multi-Pair Trading Strategy) を提案しており、時系列データを効率的にトレードする。
ラジアル基底関数ニューラルネットをトレーニングするために、パートクレ-swarm最適化を使用する方法を提案する。
Bitcoin's block reward is scheduled to decline to zero, raising concerns about whether the network can remain
We study the setting of welfare maximization in bilateral trade, where the values of both the buyer and the se
The El Farol Bar game is a classic model of coordination under uncertainty, traditionally treating the venue a
Cooperative Multi-Agent Reinforcement Learning (MARL) frequently suffers from severe reward sparsity and explo
Reputation, the aggregation of peer assessments diffused through social networks, is a pivotal mechanism for p
We formulate the problem of \emph{exact unlearning} in reinforcement learning, where the goal is to design an
Majority illusion is an undesirable phenomenon in social networks in which agents incorrectly perceive a minor
Classical game-theoretic solution concepts assume that agents' internal representations remain causally linked
Many proof-of-stake protocols finance validator rewards from two sources: transaction fees and a finite reserv
Advertisements often strategically disclose information to consumers who make decisions on further information
We study sequential decision-making in partially observable environments against strategic, adaptive opponents
Predicting whether an individual with Alzheimer's disease will experience mild or severe disease progression i
Latent state-space models are widely used to study partially observed dynamical systems, yet most formulations
Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet t
Due to their explicit priors and ability to model uncertainty, Bayesian methods have played a major role in dy
Periodic target updates in Q-learning and soft target updates in actor-critic methods are empirically well est
We introduce and analyze Limit Continuous Poker, a variant of Von Neumann's Continuous Poker with variable but
We study two-player zero-sum games (TPZSGs) with bandit feedback under fairness constraints requiring every ac
In this paper, we investigate the computational hardness of finding fractional allocations to unit-demand play
Surrogate-assisted evolutionary algorithms (SAEAs) have been widely used for expensive black-box optimization
The Charlson Comorbidities Index (CCI) is a weighted additive index widely used to estimate ten-year mortality
With strong evidence in the literature showing that fairness and truthfulness are incompatible, there is a rec
We develop a game-theoretic framework that compares welfare efficiency across three market mechanisms: continu
Bidding in the European Frequency Containment Reserve (FCR) market is challenging for flexibility providers be
Online advertising platforms rely on machine learning models to predict click-through rates (pCTR) and convers
可視化可能な生存分析を行うために、Survival Treesを提案する。
Regulatory institutions (from content moderation platforms to financial supervisors) observe, deliberate, and
We study bandit learning in matching markets, where players and arms constitute the two market sides, and the
We consider the problem of dividing a set of indivisible goods among agents with additive valuations. This pro
The classic concept of "calibrated forecasts" and its more recent refinement, "calibeating," are defined with
We present a functional form (that we refer to as a Unified Neural Scaling Law (UNSL)) that accurately models
We prove that no reinforcement learning policy with confidence-gated autonomy can simultaneously achieve maxim
The dominant artificial intelligence paradigm trains neural architectures via gradient descent against proxy o
We study the facility location mechanism design problem where $n$ agents report their locations in Euclidean s
Reinforcement learning (RL) for reachability specifications is fundamental in sequential decision-making, yet
単一候補者の選挙結果の正当性を確立するために、投票結果が多数決規則に基づく選挙結果とはどのように関連しているかを研究します。ここでは、複数候補者の選挙において選挙結果の正当性が確立されていく過程について、多数決規則から選
この研究では、拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲームを研究します。このゲームでは、エージェントは目標に到達するために最小コストで移動したいと考えていますが、拝視者はエージェントの行動に影響
Trauma resuscitation is a clinical process for treating life-threatening physiological disorders in safety-cri
多勝者投票ゲームは、各候補者の承認順位を合計して、固定サイズの委員会を選択する方法です。coalitional stabilityが実現されている状況を探します。
Vehicle-to-vehicle (V2V) energy trading enables decentralized peer-to-peer energy exchange among electric vehi
中間者がオプティマルなアウクションを実現する場合の状況を調べます。中間者は価格決定に参加する参加者や買収者に情報を伝えるときに、収益の最大化を優先します。
We consider a matching problem, which is meaningful in team competitions, as well as in information theory, re
We address the issue of global convergence in stochastic continuous optimization. For that purpose, we formula
To verify the robustness of a program or protocol, it is common in the computer science community to rely on t
Many decision processes run for a long and unknown duration: in each round new requests arrive, an irrevocable
We investigate a family of one dimensional maps for which the bifurcation diagram looks differently than the u
A divisible treasure is located at a node $H$ of a network. From a given start node a group of $n$ Searchers e
Competitive multi-agent reinforcement learning in imperfect-information games requires agents to act under par
We extend the optimin notion of Ismail (2025) from mixed strategy profiles to correlated distributions. A corr
Man-made and natural disruptions such as planned constructions on roads, suspensions of bridges, and blocked r
We introduce a class of cooperative games induced by weighted directed graphs. Specifically, the coalitional v
Strategic multi-agent systems are fundamentally characterized by decentralization, uncertainty, and ambiguity.
We describe and axiomatize finite solitaire puzzles and zero sum sequential games graph theoretically. Zermelo
Neural operators have emerged as a powerful, discretization-invariant framework for solving partial differenti
This study develops and evaluates a deep reinforcement learning framework for dynamic portfolio allocation acr
Allocating $m$ indivisible goods among $n$ agents is a fundamental task in fair division. Recent work of Garg
We develop an abstract axiomatic theory of tie-breaking. A tie-breaking input consists of a finite set N of pl
これは、ニューラルアーキテクチャサーチのための、コスト効率の高い予測フレームワークです。
Probabilistic prediction systems often aggregate probability estimates from multiple models into a single deci
大規模な不完全情報競争ゲーム(例:スターカフト、ドータ、カウンターストライク)における精査可能な均衡の取得は、sparse rewards と長時間探索のため計算上厄介になっています。この研究では、対手2人ゼロ和(2x0
Strategic crisis analysis needs representations that combine qualitative expert judgement, explicit interdepen
By specifying behaviour across multiple agents, social norms are a coordination approach to resolving social d
Towards Affordable Energyは、電力需要応答プログラムの最適化に役立つアルゴリズムを紹介する研究である。
Sponsored search auctions are commonly modeled as an assignment of a fixed set of slots (positions) to a set o
Neural networks have proved an effective means of learning control policies for autonomous systems, but these
We study an optimal intervention problem on the linear threshold model (LTM) in which a social planner aims to
Reinforcement learning (RL) has enabled robust quadruped locomotion over complex terrain, but most learned con
Automatic heuristic design (AHD) has emerged as a promising paradigm for solving NP-hard combinatorial optimiz
A hallmark of life on Earth is the ability of agents to exert causal power and be drivers of subsequent events