gradio — Build and share delightful machine learning apps, all in Python. 🌟 Star to support our work!
Pythonでマシンラーニングアプリを作成・共有することができるライブラリです。
Category
PPO、モデルベースRL、RLHFなど、制御・最適化・エージェント設計に関係する技術を扱います。
Pythonでマシンラーニングアプリを作成・共有することができるライブラリです。
paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。
ゲーム『明日方舟』の支援ツール。全日常のタスクを一括で実行可能。
Pythonでマシンラーニングアプリを作成・共有することができるライブラリです。
paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。
ゲーム『明日方舟』の支援ツール。全日常のタスクを一括で実行可能。
Pythonでマシンラーニングアプリを作成・共有することができるライブラリです。
paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。
ゲーム『明日方舟』の支援ツール。全日常のタスクを一括で実行可能。
Gymnasiumは、シングルエージェントRLの疑似環境を提供するAPIです。
P
この研究では、弾性シミュレーションに基づいて、エピソード間の状態を保つために、リプラスの重みと、エピソードの初期状態を用いました。
この研究では、トポロジカルニューラルオペレータ(TNO)としてのニューラルネットワークの学習を可能にする方法を提案しました。TNOは、セル複素上のデータに基づいて、オペレータを学習し、クロス-次元的な結合を可能にします。
AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは
結合作用を考慮した分子力の予測を研究。モデルの推論を効率化するために、モデルのスケールを自動的に調整する方法を提案した。
Offline reinforcement learning (RL) offers a path to policy improvement from logged data alone, using historic
Reinforcement learning from human feedback (RLHF) is bottlenecked by \emph{reward hacking}, where the policy e
分析モデルを新しいアームが現れる環境でアップデートすることで、最適なアームを選択できるようになります。
この論文では、人機協力における分散型コミュニティを考慮するために、新しいフレームワークを提案する。これにより、分散型人機協力がより効果的に設計できる。
マルチロボットシステムを用いた物体の輸送は多くの分野、産業から家庭までで不可欠なタスクです。一度の輸送タスクをロボット数台の輸送タスクに分割しそこまでの各タスクを個別に解決します。物体は実際には形状や質量分布が非一様で、
Scene Graphs (SGs) provide structured representations of visual scenes by modeling objects and their pairwise
CloudNetwork Infrastructureの自動的なインシデント解決のため、新しいAgentic AI Architectureを提案。
This report summarizes the CHIIR 2026 Workshop on Generative AI and Academic Search (GAI\&AS), which examined
Text based configuration files for cyber-physical systems show the hierarchy of component modules well but oft
Accurate dynamics models are essential for model-based robotic control, yet nominal Euler--Lagrange models oft
Embodied policies typically map current observations directly to actions, leaving candidate-action consequence
We present RPO-PDT: a retrieval-grounded, role-play-based dialogue system for adaptive student support in high
Time-of-flight cameras are popular in robotics for providing direct depth information while being compact, ine
Decision-focused learning has shown great promise for addressing predict-then-optimize problems, particularly
Adaptive beamforming is a cornerstone of array signal processing, yet its performance often collapses in the f
The quality of software engineering is still under a challenge due to disjointed processes between requirement
Robots operating in human environments must not only ensure physical safety but also exhibit behaviors that ar
We consider the fair division problem of indivisible chores and resolve the long-standing open problem for the
Optimal transport couplings are probabilistic objects, while many learning pipelines require deterministic map
Reliable wildlife monitoring is essential for ecology and conservation, yet many existing methods, such as tag
The growing volume of retired lithium-ion battery packs from electric vehicles and portable electronics calls
Remote communication technologies have become widely used; however, supporting a sense of shared physical spac
医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推
Performative prediction studies feedback loops that arise when predictive models are deployed in consequential
Scientific machine learning is limited less by model size than by the data it is trained on. Observational dat
Generative models for counterfactual outcomesは、決定をサポートするために複雑な干渉に対して、潜在的な結果を生成するための優れたポテンシャルを持っています。しかし、対象外データ
The object manipulation capabilities of quadruped robots is an open research challenge. While previous studies
この論文では、Dubins車モデルの動的拡張に基づく円形運動原理の軌道安定化を扱った。軌道安定化を実現するために、非線形化の手法とコントローラ設計の条件を提案し、非線形化の手法が安定化につながることを確認した。
The ISO 26262 standard defines functional safety for road vehicles through risk assessments based on Severity,
この論文では、上肢義手の操業を可能にするビオシグナルなしの制御システムを提案した。IMITATION LEARNINGを用い、シミュレーションを用いて、達成可能な範囲を拡大した。
この論文は、人間の労働者が自律ロボットを使用および制御できる自律ロボットの開発を取り巻く説明を検討します。自律ロボットは危険な状況で人間の労働者を保護することができますが、これらのシステムの信頼される操作を可能にするため
Reinforcement learning has become the prevailing approach to humanoid locomotion control: policies transfer re
This paper studies runtime safety for autonomous driving when high-level driving commands become faulty or unr
Robots performing long-horizon visual manipulation observe high-dimensional images, but successful plans depen
Vehicle-to-vehicle (V2V) communication is expected to improve road safety and reduce congestion. However, prio
Modelling opinion dynamics typically relies on hand-crafted local interaction rules to study emergent macrosco
We design and analyze a deterministic cake cutting algorithm that achieves proportional fairness using a linea
Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demandi
TorchKM is an open-source library for kernel machines, including support vector machines, kernel logistic regr
負のイベントのリスクを受け流すことで個人が極端な負担にならないように、各参加者に信用できる負担金の上限を提供する仕組みを作ります。
Neural network (NN)-based nonlinear causal discovery methods recover DAG structure but leave each causal mecha
The question of whether artificial systems can be conscious remains open, in part because existing approaches
vineロボットが増長する度に、センサやツールをマウントすることが課題。
この研究では、協力的なチーム内における安全な行動の実行を可能にするフレームワークを提案します。これは、行動が動的制約にも合わずに、安全かつ機能する結果を生み出すことを保証しています。
The present study provides a closed-form characterisation of Nash equilibria in N-player binary games with uni
この研究では、エネルギー効率の良い空間モデルを構築した。
共同作業を効率化するための空
この研究では、部品割当における完全情報の限られた条件で最適割当を実現する方法を提案します。
In the classic online min-cost matching problem, the goal is to match a sequence of requests that arrive dynam
ラジアル基底関数ニューラルネットをトレーニングするために、パートクレ-swarm最適化を使用する方法を提案する。
Bitcoin's block reward is scheduled to decline to zero, raising concerns about whether the network can remain
We study the setting of welfare maximization in bilateral trade, where the values of both the buyer and the se
The El Farol Bar game is a classic model of coordination under uncertainty, traditionally treating the venue a
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and
物理ベースのシミュレーションおよびロールアウト学習環境を提供するツールです。
Majority illusion is an undesirable phenomenon in social networks in which agents incorrectly perceive a minor
Many proof-of-stake protocols finance validator rewards from two sources: transaction fees and a finite reserv
Advertisements often strategically disclose information to consumers who make decisions on further information
We study sequential decision-making in partially observable environments against strategic, adaptive opponents
Predicting whether an individual with Alzheimer's disease will experience mild or severe disease progression i
Latent state-space models are widely used to study partially observed dynamical systems, yet most formulations
Due to their explicit priors and ability to model uncertainty, Bayesian methods have played a major role in dy
We introduce and analyze Limit Continuous Poker, a variant of Von Neumann's Continuous Poker with variable but
We study two-player zero-sum games (TPZSGs) with bandit feedback under fairness constraints requiring every ac
In this paper, we investigate the computational hardness of finding fractional allocations to unit-demand play
The Charlson Comorbidities Index (CCI) is a weighted additive index widely used to estimate ten-year mortality
With strong evidence in the literature showing that fairness and truthfulness are incompatible, there is a rec
We develop a game-theoretic framework that compares welfare efficiency across three market mechanisms: continu
Bidding in the European Frequency Containment Reserve (FCR) market is challenging for flexibility providers be
Online advertising platforms rely on machine learning models to predict click-through rates (pCTR) and convers
可視化可能な生存分析を行うために、Survival Treesを提案する。
We study bandit learning in matching markets, where players and arms constitute the two market sides, and the
We consider the problem of dividing a set of indivisible goods among agents with additive valuations. This pro
The classic concept of "calibrated forecasts" and its more recent refinement, "calibeating," are defined with
Mathematical Foundations of Reinforcement Learningは、ディープラーニングにおける推論力学習の数学的基礎を網羅している。
強化学習に関する学習教室を提供するリポジトリです。
We prove that no reinforcement learning policy with confidence-gated autonomy can simultaneously achieve maxim
We study the facility location mechanism design problem where $n$ agents report their locations in Euclidean s
ゲームの一般的な強化学習用エンドポインティであるEnvironmentおよびアルゴリズムの集合。
単一候補者の選挙結果の正当性を確立するために、投票結果が多数決規則に基づく選挙結果とはどのように関連しているかを研究します。ここでは、複数候補者の選挙において選挙結果の正当性が確立されていく過程について、多数決規則から選
この研究では、拝視を行うために行動するエージェントを欺いたり、欺き返したりするゲームを研究します。このゲームでは、エージェントは目標に到達するために最小コストで移動したいと考えていますが、拝視者はエージェントの行動に影響
Trauma resuscitation is a clinical process for treating life-threatening physiological disorders in safety-cri
多勝者投票ゲームは、各候補者の承認順位を合計して、固定サイズの委員会を選択する方法です。coalitional stabilityが実現されている状況を探します。
中間者がオプティマルなアウクションを実現する場合の状況を調べます。中間者は価格決定に参加する参加者や買収者に情報を伝えるときに、収益の最大化を優先します。
We consider a matching problem, which is meaningful in team competitions, as well as in information theory, re
人工知能による画像水印除去ツールとライブラリを提供する。
We address the issue of global convergence in stochastic continuous optimization. For that purpose, we formula
To verify the robustness of a program or protocol, it is common in the computer science community to rely on t
Many decision processes run for a long and unknown duration: in each round new requests arrive, an irrevocable
We investigate a family of one dimensional maps for which the bifurcation diagram looks differently than the u
A divisible treasure is located at a node $H$ of a network. From a given start node a group of $n$ Searchers e
We extend the optimin notion of Ismail (2025) from mixed strategy profiles to correlated distributions. A corr
Man-made and natural disruptions such as planned constructions on roads, suspensions of bridges, and blocked r
We introduce a class of cooperative games induced by weighted directed graphs. Specifically, the coalitional v
Strategic multi-agent systems are fundamentally characterized by decentralization, uncertainty, and ambiguity.
We describe and axiomatize finite solitaire puzzles and zero sum sequential games graph theoretically. Zermelo
Neural operators have emerged as a powerful, discretization-invariant framework for solving partial differenti
Allocating $m$ indivisible goods among $n$ agents is a fundamental task in fair division. Recent work of Garg
We develop an abstract axiomatic theory of tie-breaking. A tie-breaking input consists of a finite set N of pl
Probabilistic prediction systems often aggregate probability estimates from multiple models into a single deci
Strategic crisis analysis needs representations that combine qualitative expert judgement, explicit interdepen
By specifying behaviour across multiple agents, social norms are a coordination approach to resolving social d
Towards Affordable Energyは、電力需要応答プログラムの最適化に役立つアルゴリズムを紹介する研究である。
Sponsored search auctions are commonly modeled as an assignment of a fixed set of slots (positions) to a set o
We study an optimal intervention problem on the linear threshold model (LTM) in which a social planner aims to