screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「text」の検索結果
627 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。
.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。
データラベル化と注釈化を行うためのツールです。
マシンラーニングシステムの理論と実装に関する本。
このリポジトリは大規モデルの無学習に関するリソースをまとめたものです。
ノードベースのビジュアルプログラミングツールです。
Unsloth Studioは、オープンモデルのトレーニングと実行を支援するWebUIです。このライブラリは、Gemma4、Qwen3.5などのオープンモデルのテストとトレーニングを支援するために使われます。
SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。
SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。
長時間のビデオ生成を実現するためのモデルのサポートを紹介している。
オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。
このリポジトリでは、トークナイザーの最適化を提供しています。
電気生理信号から表現を学習し、脳コンピューターインターフェースの開発を支援する。
ドキュメントを構造化するために使えるオープンソースのETLソリューション。
LLMを利用するために、セマンティック検索やLLMのオーケストレーションなどを行えるフレームワーク。
テキスト分析、センチメント分析や単語分割などを行えるライブラリ。
この論文では、LLM RLの安定性を向上させるために、離散化と重み付けを用いた分散化されたPPOを提案します。また、安定性の向上によって、大規模言語モデルを用いたRLの適用が可能になります。
この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。
この研究では、有効なバンドのオブザーバブックを設計しました。このオブザーバブックは、ユーザの相互作用とコンテキストの変化に応じて、有効バンドをアダプティブに選択することができます。
この研究では、低リソース言語NMTのために、データ合成方法を開発しました。これにより、データ合成されたコーパスを使用し、NMTモデルをパラメータ効率的にフィーヌチュン化できます。
Vision-Language-Action (VLA) models have demonstrated impressive end-to-end performance across a variety of ro
AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは
大規模言語モデル(LLM)を運用するコンテンツモデレーションシステムは、有害なオンラインコンテンツを防止するために重要な役割を果たします。しかし、これらのシステムの主な目標は単にトークナイズされたテキストを操作することに
バイオメディカル言語モデルの場合も、Cosine Similarityで2つのトピックを関連付ける際に、0.83をスコアに返却しますが、実際にはその2つは関係がありません。このことから、off-the-shelfのバイオ
Contextual queueing bandits provide a framework for learning to schedule heterogeneous jobs under unknown cont
Bayesian optimization (BO) is a central tool for sample-efficient design, and latent-space Bayesian optimizati
Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Re
Muon has recently emerged as a state-of-the-art optimizer for pretraining Large Language Models (LLMs) and vis
Vision-language-action (VLA) policies provide strong priors for language-conditioned manipulation, but remain
コード生成を安全かつ信頼できる方法で行うことを目的とした研究。コード生成における不確実性を推定する方法を提案し、コードの解釈可能性と安全性を向上させる。
ラングラージュモデルを解釈するためのアクティベーション分析を提案。モデルを分析することで、モデルがどのようなコードを生成しているかを理解する。
動画大規模言語モデルを使用した質問に対する回答を研究。モデルの能力と限界を調査し、質問に対する答えを生成するための方法を提案した。
ラングラージュモデルを効率的に推論することを目的とした研究。モデルの推論を効率化するために、モデルの深さを自動的に調整する方法を提案した。
On-Policy Distillation (OPD) has become a core technique in the post-training of Large Language Models (LLMs)
Modeling interacting dynamical systems requires capturing spatial interactions alongside long-range temporal d
オンライン学習の継続学習では、モデルは非駅性データ ストリームから知識を継続的に蓄積する必要があります。モデルのパラメータはトレーニング中に効果的に調整される必要がありますが、パラメータ効率的なプロンプト チューニングや
最近の研究では、線形プローブを使用して暗示された秘密を内部アクティブ化から回復し、ステラングラフィック侵入の検出を改善しました。しかし、ステラングラフィック侵入を検出し、内部アクティブ化を検知するには、ステラングラフィッ
この研究では、機械学習モデルをプライバシー保護のための適応化する際、プライバシー保護の実験的な効果を分析することに関与します。
この研究では、強力な防御ガードモデルと低パラメータのLLMを組み合わせたデュアルモデルシステムを導入し、安全なLLMのデプロイに使用できます。
この研究では、強化学習のトレーニングに使用するRewardsの検証が難しい場合は、Rewardがグループレベルでは無価値で、グループ間の優劣比較が不可能となる問題に対処するためのReasoning Arenaを提案します
この研究では、Tensor ParallelismとFully Sharded Data Parallelism技術を利用して、GPU メモリ限界のある従来の検証アーキテクチャの制約を解いて、機械学習ネットワークの検証を
この研究では、ゼロショット セマンティック再特定の基準を設定し、画像のセマンティック特定を自動化します。
この研究では、長期的なタスクの再帰の信用割当問題に対処するために、長期的なタスクの再帰をサポートするPrivileged Bayesian Self-Distillation (PBSD) を提案します。
この研究では、テキスト、画像、ビデオ、アウディオ等の異なるモダリティのデータを統合したオムニモダル検索システムを構築します。
Multimodal federated graph learning (MM-FGL) aims to collaboratively learn from decentralized graphs with text
Understanding tactical organisation of association football, hereafter referred to as football, requires ident
自然言語から機械設計や技術図案などの正確な構成を作成することができるシステムを開発しました。このシステムは、Geometric Constraintsを満たす正確な構成を作成するために、Constraint DSL (D
パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。
この論文では、data mining におけるビジュアルプログラミングフレームワーク、Orange Lab を提唱しました。これにより、Webベースのデータ分析環境を提供し、ユーザーフェイシングの分析ツールとしてデータ分
この論文では、RAG によって安全に訓練されたLLMに攻撃を加えた結果、RAGによって安全に訓練されたLLMの推論が抑制されることを示しています。これは、RAGによって訓練されたLLMが、推論を抑制するために使われたコン
これは、不確実性やリスクを減らすために、$\rho$-NPTS (Nonparametric Thompson Sampling) というアレイフリーの非パラメトリックベースのThompson Samplingで、リスク
This paper presents a unified system designed to support precision agriculture by integrating advanced weather
Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed fo
Video retrieval at scale is central to data curation and safety validation in autonomous driving, where users
理論的思考は、最新の基礎モデルシステムが安全かつ効果的に現実世界で動作するには必須のスキルであると考えられています。しかし、理論的思考の進進には、「ショートカット」問題が存在し、タスクは99%の正解率を達成するのに、ただ
分析研究は、LLM推論速度を速めるため、トークン、レイヤー、ヘッド、次元、注意パターンの削減技術である削減技術を適用し、広範なパラダイムとして成長しています。削減方法の実装によって、実現された加速の度合いは、ハードウェア
LLM推論において、長いコンテキストを扱うことが多く、GPUメモリボトルネックの問題が起きます。この課題に対処するために、Neural Memory Indexerと呼ばれる Neural Memory Indexerを
Two-stage post-training -- a Stage-1 warm-start (supervised fine-tuning, SFT, or on-policy distillation, OPD)
Video generative models have become increasingly powerful, but long-range consistency remains challenging to a
Self-evolution offers a scalable path to stronger reasoning: a pretrained language model improves itself with
Useful audits reveal not only how often a model fails, but also where its failures concentrate. An auditor may
Clinical early warning systems built on electronic health records, in which clinical observations are recorded
Post-training quantization (PTQ) converts a trained full-precision model into low-bit weights without task-lev
質問の難易度を自動で推定することで、教材の質問を作成する際の手間を軽減し、学習者の成果を高めることができます。
エージェントの安全性を向上するために、ハッカーのフェイクオートを作成して、リスクを評価するための新しいアプローチを提案します。
言語モデルの寿命リスクへの適用を実現するために、コックス比例危険モデルを使用して、新しいアプローチを提案します。
この論文では、AI 系統が安全性の検証を容易にするために、新しいフレームワークを提出する。これにより、AI 系統の安全性の評価がより効果的になる。
この論文では、VLM ゲームエージェントの評価基準が提供され、さまざまなタイプのエージェント間の比較が可能になる。
この論文では、ロボット手術の制御を改善するために、ロボットの視覚的シーンの動作と操作を同時にモデル化する方法を提案する。
この論文では、AI エヴァルレーション結果をより効果的に解釈するために、新しいフレームワークを提案する。
この論文では、エージェントの委譲能力を改善するために、新しいフレームワークを提案する。これにより、エージェントがより効率的にタスクを分割できる。
この論文では、法令上の異議申し立てを検出し、法令上の違反を最小限に抑える方法を提案する。
この論文では、分散型エクスキューションの観察性を考慮するために、新しいフレームワークを提案する。これにより、分散型エクスキューションの評価がより効果的に行える。
この論文では、数値形式の標準化を提案する。これにより、数字の解釈と操作がより効率的に行える。
この論文では、自動化された形式化を提案する。これにより、形式化プロセスがより効率的に行える。
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and op
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
自動運転車やインテリジェント輸送システムなどの自動化された車両の感知には3次元オブジェクト検出が必要です。道路での長距離検出は困難ですが、道路ではこの「長距離」に対する感知と決定の時間は約1-2秒です。2つの主な課題が現
LLM間でモデル呼び出しと外部ツールの呼び出しが交互になり、サーバのサーヒングがステートレスの要求処理からステートフルなプログラム実行に移行します。これらのワークロードの評価は、各設計点ごとに専門的なアクセラレータ時間を
Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multi
Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly evaluated on table reasoning t
AI Scientist agents are often evaluated as if capability were mainly a function of model quality, prompting, o
Two-server secure inference allows a client to query a hosted large language model (LLM) without revealing pro
Tool-using large language model (LLM) agents face two distinct security failures: unauthorized external action
Federated Learning (FL) allows a set of clients to collectively train a global model without sharing local tra
During instruction fine-tuning (IFT), large language models (LLMs) learn to follow instructions by using the p
Can a general-purpose large language model design molecules with the precision of a seasoned chemist? Current
Existing sparse attention and KV cache compression methods for long-context LLM inference typically apply fixe
Objective. Large language models (LLMs) increasingly draft clinical research manuscripts, but their fluency ca
世界モデルがロボットの学習パイプラインに導入されると、安全でないロボットがDeploymentされるリスクが生じる可能性があることが示されている。
医療のガイドラインとの適用を自動的に評価することを目的とするコンフォーマンスチェックフレームワークが開発された。Large Language Models (LLMs) を用いて、コンフォーマンスチェックを実現する。
Webエージェントを自動化するためのAliyunConsoleAgentが提案され、ドキュメントの検証とWebエージェントの開発を簡素化する。
RAGプレフィルへの速力向上を目的としたSIFTが提案され、TTFTを短縮し、コストを削減する。
マテリアルの非破壊検査を目的としたContext-Aware Deep Learningが提案され、エアロックの欠陥を検出する。
スキルアジュストの能力獲得を目的としたCapability-Aligned Hierarchical Learningが提案され、LLMsが外部ツールを操作してタスクを実行する能力を獲得する。
We present SUPERBROWSER, an autonomous web-navigation agent designed against a single guiding hypothesis: a we
Body movement communicates intent at distances and in conditions where neither the face, nor speech can be cap
Scene Graphs (SGs) provide structured representations of visual scenes by modeling objects and their pairwise
Medical agent systems are increasingly expected to support interactive clinical decision making rather than on
可勉強のターブルの信号に関する表現モデルが、異なるトレーニングパラダイムを持つモデルを評価しやすくする基準であるTRL-Benchを提案している。
代理機器が外部の知識を活用して、多くのタスクを効率的に解決できる「Anything2Skill」を提案している。
脳-エージェント接続での脳サイン入力を安全に実行できるシステムを提案し、脳サイン入力攻撃を検知することができる。
エンドツーエンドトレーニングによるTTSシステムを提案し、エンドツーエンドトレーニングの利点を確認している。
Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用して、新しい研究方法を提案し、Social Scienceの研究実現を実現した
Multilingual safety evaluation of large language models (LLMs) has predominantly relied on direct translation
In recent years, unified multimodal models (UMMs) have emerged to support both understanding and generation wi
Diffusion Language Models (DLMs) enable parallel text generation by iteratively denoising a full sequence, off
This paper revisits our pipeline called Syllogistic Evaluation Framework-Common Logic Grammar Construction (SE
Egocentric visionを使用して、ペダストリアンの歩く道に渡るのを予測する。Closed-ended visual question answering(VQA)問題に形式することで、ビジョン言語モデルを使用
大規模言語モデル(LLM)の推論スタックには、モデルの重み、サンプリングコード、および出力分布を変更することなく、暗号化なしで秘密コミュニケーションを行うステゴグラフィチャンネルが存在する。送信者はシークレットデータを秘
3次元シミュレーションシーンから知識グラフを構築することが、ロボットのタスク推論に重要な役割を果たすが、シーンのオブジェクトを形式的な分類にマッピングするステップが、現実に現れていない。LLMを使用して、このマッピングの
ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す
大規模言語モデルのプライバシーリスクについては、既に研究が行われていたが、マルチモデル大規模言語モデル(MLLM)のプライバシーリスクについては、まだ十分に調査されていなかった。MLLMでは、テキストだけでなく画像データ
強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決
訓練データ以外の問題解決を検討したため、新しい評価方法であるexpert-curated rubric-based evaluationを 提案。
科学的アイデア生成には、現実に実現可能な高質のアイデアを必要とするが、この課題を解く方法は不足していたため、新しい方法であるGraph2Ideaを提案。
AIアシスタントを使用
Dynamic origin-destination (OD) flow generation seeks to synthesize realistic mobility dynamics from temporal
Tool-using LLM agents interact with the world through actions that persist state in artifacts (e.g., workspace
Large language model (LLM) agents now solve complex tasks through long plan-and-execution traces, yet the abil
Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understandi
Removing intermediate representations and separately trained decoding stages has become an important direction
Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' prefere
Interior permanent magnet synchronous motor (IPMSM) design requires balancing conflicting objectives and multi
LLMを利用したランニングの計画における決定論的安定性を確保するために、SafeRunというフレームワークを提案。LLMと決定論的ソルバーを分離して、安全ルールの厳格な実施を確保。
オーディオTokenと文書をモデル化するためにコーデックベースのARトークのジェネレーターが強力な文を音声の質を高めました。しかし、このアプローチでは、音声Tokenのシーケンスはテキストシーケンスより長くなるため、AR
LLMがTABULARデータ分析で機能を自動化できるようにした。しかし、標準化されたプラットフォームの欠如は、比較やコスト的評価を行うのを難しくしている。複雑なメソッドの設計により、各コンポーネントの具体的な貢献をはっき
Agentic AIシステムの不確実性が、同じ要求から異なる計画、ツールの呼び出しなどが生成されることを示唆している。このようにしてシステムの信頼性を確保するには、AIエージェントのパラメータを確立することが重要となる。
連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連
LLMベースのRTL生成と推論は、ハードウェア設計自動化の新たな方向を示唆します。しかし、ベンチマークは、大規模化とタスクスコープの制約がある。現存するベンチマークでは、前向きモデルの実績
Large reasoning models (LRMs) have attracted increasing attention for their ability to solve complex mathemati
Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making i
Large language models (LLMs) are increasingly used for medical summarization, but their outputs can omit medic
Comprehensive estimation of dietary micronutrients from food images could improve clinical nutrition care, but
Clinical diagnosis requires flexible use of multiple reasoning paradigms under incomplete patient information.
This report summarizes the CHIIR 2026 Workshop on Generative AI and Academic Search (GAI\&AS), which examined
Semiconductor lithography inspection requires reliable detection of small pattern defects such as bridge, burr
Macro placement is a fundamental step in modern chip physical design, playing a crucial role in determining th
この研究では、複数の時系列予測を合わせたモデルを使用して、個々の時系列の特性を考慮した予測を行うFAMEを提案します。このモデルは、個々の時系列の特性を考慮することで、より正確な予測が可能になります。
この研究では、音楽生成における多様性を促進するためのオープンソース・フレームワークを開発します。このフレームワークは、音楽生成における多様性の促進を支援するために、進化的プロセスと多様性促進アルゴリズムを組み合わせたもの
この研究では、CMA-ESアルゴリズムの停止条件を評価します。この研究では、CMA-ESアルゴリズムの停止条件が機能するかどうかを調べ、アルゴリズムを改良するための情報を提供します。
この研究では、形式言語の学習性を評価するための方法を開発します。この方法は、形式言語の学習性がどれだけのデータを必要とするかを評価することができます。
この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。
この研究では、長文生成モデルの改良を実現するためのフレームワーク、IS-CoT を開発します。このフレームワークは、長文生成モデルの生成性とコントロール性を改善することができます。
この研究では、マルチモーダル言語モデルの評価のためのフレームワークを開発します。このフレームワークは、マルチモーダル言語モデルの生成性とコントロール性を評価することができます。
Multimodal large language models (MLLMs) achieve strong results on visual reasoning benchmarks, but answer acc
Ensuring the reliability of Large Language Models (LLMs) under distribution drift requires inference-time adap
Court simulation bridges legal education and judicial practice, yet human-based simulations are costly and dif
Writing Individualized Education Programs (IEPs) is a high-labor, knowledge-intensive document burden; English
Medical language models (LMs) can memorize and reproduce protected health information, but privacy evaluations
As AI assistants serve millions of users daily, evaluating user experience (UX) beyond general model capabilit
Recent advances in neural text-to-speech (TTS) and multilingual speech generation have substantially improved
WhisperのようなマルチリンガルASRモデルの音声認識能力をDravidian言語で向上させるために、データセットと言語分析を用い、モデルをフィネチュアリングし、デコーダの不平衡を解消し、音声認識誤差を低減した。
この研究では、大きな言語モデルがグラフの同型性を推論できるかどうか調査し、小さなグラフでは同型性を認識できたものの、シードノードラベルを入れ替えてグラフ同型性を検証した結果、同型性が識別されなかった。
予備情報が少ない場合や医療分野などの特定の分野の場合、分類タスクは難しいようになるが、この研究では、モデルが未分類データを操作して、分類モデルの性能を向上させる方法である、DecSelfMaskを提案した。
大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ
この研究では、検索タスクにおける抽象レベルにおけるギャップを解消するためのフレームワークであるAbstRAGを提案し、検索タスクにおけるギャップを解消したことで、モデルが検索タスクにおいて正しく情報を開示した。
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
危機管理では、コミュニケーションと地理
Social robots must interact robustly not only with users assumed by speech-centered systems but also with dive
Large language model agents increasingly rely on skills: reusable procedural documents encoding workflows, too
As large language models (LLMs) are increasingly applied to real-world legal tasks, evaluating the reliability
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Large language models have been widely evaluated as simulators of individual survey responses. In practice, ho
Large Language Models fail at implicit multi-hop reasoning: a model answers "When was $X$ born?" and "Who is $
Fine-tuned Large Language Models (LLMs) dominate in Ukrainian grammatical error correction (GEC), while API-ac
Nüshu is an endangered phonetic script historically used by women in Jiangyong County, southern Hunan, China.
We present TruthSplit, an interactive system for multi-perspective argument analysis. Existing argumentation t
Understanding and reasoning over abstract visual content remains a challenge for current multi-modal large lan
Multimodal affective analysis aims to understand human sentiment and emotion by jointly modeling heterogeneous
Chinese discriminatory-language detection is challenging because harmful intent is often implicit and context-
Prior work has shown that fine-tuning large language models on malicious or incorrect outputs in narrow domain
The emergence of reasoning multimodal large language models (MLLMs), which generate explicit chain-of-thought
Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web na
Social highlighters let people mark passages that matter to them. We ask how much of an individual is recovera
Retrieval-augmented generation (RAG) systems often serialize user queries, retrieved documents, metadata, syst
Large language models (LLMs) sometimes exhibit language confusion when generating non-English text. Existing a
We introduce ChinaHeritaQA, a multimodal benchmark dataset for evaluating the cultural reasoning abilities of
Reinforcement Learning from Human Feedback (RLHF) has significantly improved the quality and fluency of large
Reasoning Vision-Language Models (VLMs) achieve strong performance on complex multimodal tasks, but reliable r
Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit poi
Temporal modeling is essential for robotic manipulation, as effective control requires both memory of past int
View-dependent appearance modeling remains a challenging problem in novel-view synthesis and reconstruction. A
Large-scale document processing requires contextually aware table extraction (TE) that is both accurate and ef
Text-driven indoor scene generation and editing require an intermediate representation that language models ca
The state-of-the-art generative models, such as CycleGAN, Pix2Pix, and diffusion models have demonstrated rema
We describe our system for the SoccerNet 2026 Player-Centric Ball-Action Spotting Challenge, which requires pr
The dominant paradigm in video retrieval relies on embedding-based full-corpus scanning, which suffers from in
The fidelity and structural diversity of training datasets fundamentally determine the capabilities of video g
Modern object detectors achieve strong performance on standard benchmarks, yet their robustness to contextual
Generalized Few-Shot Semantic Segmentation (GFSS) has traditionally been approached as a representation-learni
Advances in handwritten text recognition have enabled large-scale transcription of historical documents, but s
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
Clinical ultrasound images often contain artificial markers, such as measurement calipers and text, to assist
Open-domain open-vocabulary detection (ODOVD) requires detectors to generalize to both novel categories and un
Synthetic aperture radar (SAR)-assisted optical cloud removal aims to recover surface information obscured by
The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal
Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making s
Two-view correspondence learning aims to distinguish true correspondences (inliers) from false ones (outliers)
Adapting large-scale pre-trained video generators for Video Super-Resolution (VSR) in novel domains remains co
Strabismus is a common ocular disorder that requires fine-grained subtype diagnosis for individualized treatme
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
4D generation (\textit{i.e.}, dynamic 3D generation) has recently emerged as a rapidly growing research fronti
Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (
Autoregressive (AR) models have demonstrated strong potential in visual generation, offering superior performa
Most existing multi-exposure HDR methods follow a fixed feed-forward reconstruction paradigm, making them pron
Reward models are central to text-to-image post-training, but visual preference is subjective and better repre
Methods based on implicit neural representations have demonstrated superior performance in Screen Content Imag
Vision-Language-Action models face significant challenges in real-world deployment due to the entanglement of
Worldwide image geo-localization aims to determine the capture location of an image on a global scale. Existin
Text based configuration files for cyber-physical systems show the hierarchy of component modules well but oft
Reliable robotic navigation necessitates the seamless integration of accurate global localization and dense, m
We present RPO-PDT: a retrieval-grounded, role-play-based dialogue system for adaptive student support in high
Autonomous UAV swarms require scalable coordination mechanisms that maintain mission performance under limited
データをAIに変換する基盤を構築することで、ビジネス上の問題を解決できます。この研究では、Model eXecution + Context ProtocolであるMXCPを提案し、データの変換を簡素化した上で、AIアプ
マルチラギングスピーチ生成やクリエイティブボイスデザイン、ルートライフクライミングなど、テクスチャファリーTTSの最新技術を実現するためのフレームワークです。
Despite the success of image generation from text descriptions, it still faces challenges that are difficult t
Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for eliciting long-ch
Gaussian-corrupted sentence embeddings have no direct linguistic interpretation, yet continuous diffusion lang
Linear attention reformulates sequence modeling as recurrent state evolution, enabling efficient linear-time i
Visual Language Models (VLMs) are known to produce hallucinated predictions that are not grounded in visual ev
The analysis of internet memes in the Nepali language is complicated by frequent code-mixing and a lack of est
Simulation plays a key role in automated robotics research supported by large language models (LLMs). However,
Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it h
Purpose: Spatial transcriptomics (ST) enables gene expression measurements within the tissue context. However,
Counterfactual recourse aims to provide actionable feature changes that would alter an unfavorable decision ma
Activation steering has emerged as a popular inference-time technique for modulating the behavior of large lan
Pretrained models are often evaluated on multi-task leaderboards to measure their applicability in diverse con
Voice biometric systems face growing threats from spoofing attacks, yet the evaluation of detection models rem
Prefill-decode (PD) disaggregation decouples prompt processing from token generation, but it also turns the ke
Long-horizon maritime trajectory prediction is important for shipping management, logistics planning, and mari
Global wind power capacity, especially in China, is booming, with new farms spanning diverse terrains and clim
Sparse coding provides a principled framework for signal representation by expressing an input as a linear com
Recently, large time series models (LTSMs) have gained increasing attention due to their similarities to large
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversati
Large language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produ
While global data-driven models excel at predicting continuous atmospheric variables, three-dimensional hydrom
Unmanned aerial vehicles (UAVs) are increasingly being deployed in logistics, service robotics, and other real
\textit{Tissue graph counterfactuals} ask how a cell's expression would change under altered spatial neighbor
Optimizing large language models (LLMs) for long-horizon caregiver agents requires balancing delayed task obje
This paper examines the limitations of fully digital and partially digital e-assessment approaches in summativ
Text-to-image diffusion models are increasingly deployed in open-ended creative contexts, yet their outputs re
Code generation models are typically compared using compact execution benchmarks and aggregate pass rates, but
Large language models (LLMs) increasingly perform multi-step reasoning, where intermediate claims form implici
Artificial Intelligence (AI) and Large Language Models (LLMs) are increasingly used in autonomous software tes
In high-stakes settings such as brand compliance, clinical care, and content moderation, machine learning cann
Automatic evaluation is critical for high-stakes text generation, where errors often involve omitted findings,
W4A4 quantization promises full utilization of INT4 Tensor Cores, yet group dequantization overhead on CUDA Co
Modernization of legacy scientific codes is often necessary to keep up with the ever-evolving changes in the c
The rapid rise in LLM capabilities has made AI agents increasingly viable across a broad range of tasks. Among
Large language models are rapicly replacing search engines as the primary interface between people and informa
Skill-augmented reinforcement learning improves language agents by storing reusable procedural knowledge acqui
We present HydraQE, our contribution to the IWSLT 2026 Speech Translation Metrics shared task. HydraQE is an e
Symbolic music evaluation for large language models remains fragmented across representations, datasets, and m
We present a method for automatic Chinese web neologism detection that operationalizes traditional linguistic
Hallucinations -- factually incorrect or unverifiable outputs -- remain one of the most challenging limitation
AI coding assistants have significantly improved developer productivity by automatically suggesting code that
Word-level cross-lingual alignment is central to annotation projection, translation auditing, and cross-lingua
Large language model (LLM) agents are increasingly deployed in long-running settings where improving through e
To interpret context correctly and retrieve relevant information, large language models must bind entities to
The increasing situational awareness of language models raises safety concerns: models might be aware when the
As Large Language Models (LLMs) advance toward open-ended autonomous agents, the mechanisms used to evaluate a
Vision-Language Models (VLMs) are increasingly required to process unbounded video streams in applications suc
Purpose - Quotation error refers to the inconsistency between cited information and its original source. This
Transformer language models process input provided as subword fragments, but natural language semantics usuall
As Russia's war against Ukraine extends into generative AI, large language models (LLMs) adapted for local pos
Reinforcement learning (RL) holds immense promise for enhancing the reasoning capabilities of diffusion large
As deep language models (DLMs) are increasingly deployed in high-stakes domains such as healthcare, understand
Although Sparse Autoencoders (SAEs) have mitigated the opacity of large language models (LLMs) by decomposing
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Recently, language models have made rapid progress across various domains and applications. However, their cap
Activation steering provides a lightweight inference-time mechanism for controlling large language models (LLM
Safety-aligned large language models often exhibit sycophancy, which is the tendency to affirm users' opinions
Meeting documents are challenging to summarize due to their length and complex conversational structure. Exist
Current advancements in Audio Reasoning rely on massive Large Audio-Language Models (LALMs), hindering deploym
Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternative
Block-wise semi-autoregressive decoding is the standard inference paradigm for diffusion large language models
We extend activation steering to diffusion language models (DLMs) and study a novel problem that arose due to
Graduate-level research reading report assessment creates a substantial labor burden for educators. While larg
Large language models answer knowledge-intensive questions using both parametric memory and retrieved evidence
Multimodal language models are typically evaluated through external behavior: selecting the correct image--tex
Large language models (LLMs) are increasingly released and deployed through opaque development and deployment
CNN-based semantic segmentation networks usually rely on context heads such as ASPP, PPM, or attention modules
Document image binarization aims to separate foreground text from degraded backgrounds while preserving thin,
Deep learning has become prevalent in computational pathology pipelines that support tasks such as cancer scre
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective paradigm for improving the reaso
Achieving fully automated, physically plausible 3D motion synthesis is a core objective in graphics and genera
Existing video generation frameworks treat sequence duration as an externally prescribed parameter -- fixed fr
Routine full-disk EUV imaging has been available only since the modern era, such as SOHO and SDO. To extend EU
The processing of gigapixel whole slide images within vision language models faces a major difficulty due to a
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
Remote sensing applications for environmental monitoring and disaster management are frequently constrained by
Reward models play a pivotal role in reinforcement learning (RL) and multi-modal trajectory selection for auto
Multimodal Large Language Models (MLLMs) face a significant inference bottleneck due to the quadratic computat
Humanoid robots require whole-body motions that adapt to scene context, task requirements, and user intent. Mo
Despite the impressive capabilities of text-to-image (T2I) models, an intent-generation gap often persists due
Chain-of-thought (CoT) reasoning has proven effective for enhancing problem-solving in large language models.
The task of temporal answer grounding in instructional video (TAGV), which aims to locate precise video segmen
Multi-contrast brain MRI provide complementary soft-tissue characteristics that aid in the screening and diagn
Vision-language models (VLMs) pretrained on large-scale image-text pairs demonstrate strong image-level unders
While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertio
Generating complete 3D scenes from a single image requires inferring globally consistent geometry, object rela
Robots operating in human environments must not only ensure physical safety but also exhibit behaviors that ar
Robots deployed in human-centric environments routinely receive natural-language descriptions of spatial infor
Vision-language models (VLMs) are powerful general-purpose reasoners, yet converting them into robot control p
Autonomous Underwater Vehicles (AUVs) traditionally rely on complex, heavily engineered pipelines for percepti
While large language models (LLMs) offer promising reasoning capabilities, their integration into safety-criti
Proactive robot assistance in household environments requires accurate prediction of human activities and obje
On-policy distillation (OPD) has become a central post-training tool for large language models (LLMs), providi
presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。
Reinforcement Learning from Human Feedback via Proximal Policy Optimization often suffers from policy mode col
Diffusion language models generate text through iterative denoising, offering a powerful alternative to autore
LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harne
Modern language models represent text using discrete token-level embeddings, which forces recurring multi-toke
Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving the reasoni
Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input
Computational mental health research has predominantly centered on English-speaking populations, leaving Arabi
Tabular data is a primary medium for storing real-world information, driving many industrial applications of m
AgriGov is a curated, trilingual (English-Hindi-Marathi) dataset designed to address the scarcity of domain-gr
Simulating patients with large language models (LLMs) is a promising tool for mental health training, but exis
Text-to-SQL translates natural language into executable SQL queries. Few-shot in-context learning methods buil
Safety evaluations often infer latent motivations from behavioral patterns, but the construct validity of thes
Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the re
As large language models are increasingly deployed in high-stakes settings, there is a growing need for tools
Automated stuttering detection (ASD) systems struggle with paediatric speech due to high acoustic variability
Large Language Models (LLMs) have significantly propelled the advancement of edge intelligence and have been w
Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified fra
Lossy text compression reduces data size while preserving core meaning, making it well-suited for summarizatio
Enabling robots to understand and execute tasks from natural language commands while maintaining data efficien
Large language models (LLMs) can generate factually inconsistent claims, motivating accurate and scalable hall
Large language models (LLMs) frequently generate hallucinations, which are unsupported by a source document. T
Reinforcement Learning from Verifiable Rewards (RLVR) has recently become a key paradigm for improving the rea
Deep-learning speaker verification (SV) increasingly relies on deep neural network backbones, whose environmen
Repeated reference games test whether interlocutors replace their initially long descriptions with shorter, pa
Rubric-based evaluation is a promising paradigm for judging large language model (LLM) outputs, yet self-gener
Large Language Models (LLMs) can generate high-quality arguments, yet their ability to engage in nuanced and p
Reliable evaluation of large language models in surgery remains underdeveloped. Broad medical benchmarks test
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
Sign language models are predominantly trained with gloss-sequence or text supervision, thereby under-modeling
Diffusion language models (DLMs) offer substantial speed advantages through parallel decoding, but the lack of
Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evide
Large language models (LLMs) are increasingly used in academic research workflows, but scholarly tasks require
Symbolic benchmarks have emerged as a key approach to assess model robustness under minor modifications to STE
Sentence segmentation in Arabic is challenging due to ambiguous and inconsistent punctuation, with many texts
Although directly prompting off-the-shelf Large Language Models (LLMs) to generate meaning-preserving source r
The progress of large language models (LLMs) has fueled claims that model-generated summaries rival or even su
Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining
Understanding customer shopping trajectories is essential for enabling personalized shopping experiences. Howe
Infrared and visible image fusion aims to generate a composite image that retains significant target informati
Understanding where LLMs store factual knowledge is critical for hallucination mitigation. We systematically q
Current open-weight large language models (LLMs) are prone to malicious finetuning attacks, which could compro
Gender bias in AI-generated stories is a well-documented problem. While much attention has been paid to reduci
Backdoor attacks in large language models (LLMs) are often treated as isolated trigger-response failures, moti
Humans increasingly turn to Language Models (LMs) in ways that shape beliefs and drive decisions, including di
Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format expos
Human evaluation plays a critical role in assessing the quality of generated text. However, the reliability an
Large language models (LLMs) have shown promise in code summarization, yet their effectiveness for Hardware De
This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via Multimo
Modern large language model (LLM) agents can use external tools to help users solve complex tasks. However, fo
Visual Autoregressive (VAR) models adopt a next-scale prediction paradigm, offering high-quality generation wi
Recent advances in Diffusion Transformers have driven rapid progress in video generation and editing, yet thes
MRI preprocessing defines the input distribution seen by brain MRI foundation models, yet it is usually treate
Designing 3D metamaterial microstructures that meet the intended functions remains a major challenge, as it ty
Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified
Vision-language models (VLMs) enable visual recognition from semantic class descriptions, which makes them att
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Facial rigging - creating FACS-based blendshapes together with inner-mouth geometry (teeth, gums, and tongue)
In assisted teleoperation for human-robot collaboration, accurate intention prediction is critical for enablin
Vision-language-action (VLA) models increasingly condition robot policies on history, depth, or 4D features to
Flexible robotic automation requires systems that interpret operator intent, verify physical feasibility, and
In-context imitation learning (ICIL) enables robots to learn new tasks from a small number of demonstrations b
Multi-quadruped coordination has attracted increasing attention due to its enhanced payload capacity, broader
The classical Second Welfare Theorem decentralizes any Pareto efficient allocation through prices and transfer
大規模言語モデルのテスト時間調整に関する調査のリポジトリ。
分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に
このリポジトリは自然言語処理(NLP)に関するリソースをまとめたものです。
Black-box variational inference (BBVI) is a methodology for posterior approximation that relies on stochastic
At commissioning time, Photovoltaic (PV) operators must forecast production before target-site observations ar
この論文では、LLM APIを連携するための選択ツールであるPandora's Boxモデルを提案しています。Pandora's Boxモデルは、複数のLLM APIから生成した出力を評価するためのツールとなります。出力
Transfer learning addresses the challenge of transfering knowledge from one domain to another. Traditional tra
The transformer's emergent ability to perform in-context learning (ICL) has sparked a wide range of studies de
Researchers have shown that neural similarity among humans predicts social closeness and cooperative success,
Sparsity allows scaling model parameters without proportionally increasing computational cost. While mixture o
Adapting large language models (LLMs) to clinical workflows often requires costly fine-tuning or manual prompt
Synthetic dialogue corpora are increasingly used as proxies for target dialogue data, yet persona-grounded gen
Large language models are increasingly used for social decision-making situations that require balancing cultu
Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction ov
Accurate distance estimation for small drones in long-range imagery is important for tracking and situational
Monolithic vision-action models represent an emerging paradigm in autonomous driving. However, this architectu
The ISO 26262 standard defines functional safety for road vehicles through risk assessments based on Severity,
この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV
この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ
3D Multi-Object Tracking (MOT)では、人の動きを検出し続けるために、3D点群データから3D人体の姿勢姿勢を推測する必要があり、主に幾何学情報に依存しているが、これは状況によっては人を分別するの
World Action Models (WAMs) offer a promising approach to embodied intelligence, yet existing methods rely heav
VLNベンチマークでは、ディシクリットな操作や粗い操作が使われ、UAVのヴィジョンラングジュアクション(VLJ)タスクでは短い操作が中心で、長時間飛行に対応できるfineグラINEDUAVナビゲーション(FLIGHT)ベ
車の乗り心地と移動効率の同時最適化を可能にするためのローカル方程式に基づく車の乗り心地と移動効率の同時最適化方法を提案した。
We consider multiple agents competing to acquire some costly divisible resource (e.g. shares of a financial as
Repository-level coding benchmarks such as SWE-bench have driven a rapid surge in the capabilities of coding a
On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training
We present SigmaScale, a method for learning auxiliary scaling matrices S to aid truncated Singular Value Deco
Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. Howev
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile c
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that model
Retrieval for search agents is still inherited from non-agentic information retrieval: a retriever ranks the c
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, r
Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the
Developers increasingly use AI tools such as ChatGPT, Copilot, and Claude in everyday software workflows, but
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream ev
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical conve
この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive
TorchKM is an open-source library for kernel machines, including support vector machines, kernel logistic regr
グラフ内でパターンの検出を行うためのフレームワークであるGraphDETRを導入し、グラフ内のパターン検出を集合学習問題として視覚化した。GraphDETRは、DETRObjを元にグラフ内の対象グラフを表現する方法を開発
この研究では、対象変数が因果関係を持つタイムシリーズに対してカウンターファクタル予測を扱った。この際、カウンターファクタル予測では対象変数を含む時間系列に対して対象変数に対しての因果効果を推定するが、過去の観測値からこれ
分析モデルは、特定のアセットを中心とした分析に特化しており、異業連鎖の変動を反映していなかった。そのため、関連企業の注意を考慮し、連続時間グラフを用いて、分析結果をより包括的に表現することができる。
この論文は、スムースアクティブ化を持つ深層ニューラルネットワークの非均等収束を扱い、統一収束を扱う理論枠組みを提案する。
The question of whether artificial systems can be conscious remains open, in part because existing approaches
HANDOFFは、人間を模倣するロボットの制御を実現するために構築されたフレームワークです。ロボットはタスクを認識し、動作を生成します。HANDOFFは、タスクに合わせて動作を生成するアジエントを形成するために、教師と学
この研究では、フェスタースター自動運
布物操作の学習システムを開発しました。このシステムは、人間が布物操作を学習できます。
Vision-Language-Action(バブルラボ、VLアクション)ポリシーが長時間予測と高い不確実性の制御で脆弱であることを認識し、VLアクションポリシーが1パスでのアクションデコードのみを提供し、長時間予測のた
このリポジトリでは、画像認識モデルにアクション生成能力を付与することを目指したモデルを提案します。このモデルは、画像認識のための事前訓練モデルを用いて、複雑なアクションを生成することができます。
この研究では、ヒューマノイドロボットのロコマニパションのための MotionDisco を提案し、ロボットは接触を検出して自律的に行動することができるようになります。
この研究では、人間-ロボット 協力のためのDistributed Conversational Frameworkを提案します。
統合された視覚言語アクションモデルを提案し、これを用いたタスクの性能を向上させることができるようになる。
Open-vocabulary 3D functionality segmentation enables robots to localize functional object components in 3D sc
Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ
Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills i
Linear activation steering has gained popularity as a simple and empirically effective way to control language
Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reade
Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vis
Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputa
Object insertion aims to seamlessly composite a reference object into a specified region of a background image
Self-evolving agents requires adaptation after deployment, but existing approaches assume a usable learning lo
Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term in
We introduce UnpredictaBench, an evaluation that tests the ability of large language models (LLMs) to capture
While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning a
Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language
Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagno
We study the transformation of autoregressive models (ARLMs) into diffusion language models (DLMs). Rather tha
In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existin
Code language models need repository-level context to resolve imports, APIs, and project conventions. Existing
Role-playing language agents (RPLAs) should play characters whose values and behavior evolve as the story prog
Planning for real-world problems by language models often involves both world and user constraints, which may
Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs i
Prior work has shown that large language models (LLMs) can translate unseen or low-resource languages by under
Large language model (LLM) agents are increasingly applied to long-horizon tasks such as scientific discovery
Large language models can reproduce training data, but existing memorization evaluations mostly measure whethe
Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predo
Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Ex
Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, r
Large language models are increasingly used to simulate social media users and infer how individuals may respo
Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit
Emotion-driven Style Controlを使用してテキストから声の変換が実行され、感情のあるテキストをエモタイザブルな声に変換することが可能になります。
本論文では、欠損値がある表格型データの欠損補完に関して取り組み、欠損値がないセルと同様に動作するSkipパターン検出と順序性意識のあるdiffusionベースの欠損補完アルゴリズムを提案しました。
Watermarking methods for language models have been studied extensively in the autoregressive setting, where to
Diffusion models have demonstrated strong performance in time series modeling due to their ability to progress
The deep neural network is a widely used framework in machine learning that has been widely applied in various
Differential Privacyを使用してプライバシーを確保し、モデルが更新する必要のある少なくとも一部の座標を推定する方法を提案する
Neuroevolution is a representative neural architecture search paradigm that evolves both network topology and
Mean-based algorithms are a class of online learning algorithms that assign low probability to actions with lo
We study the problem of fairly allocating a set of indivisible goods to a set of $n$ agents with additive valu
Reputation, the aggregation of peer assessments diffused through social networks, is a pivotal mechanism for p
Muon improves training efficiency over Adam in large language-model training by about two times, but the local
Large language models are increasingly evaluated by other models, raising a natural question: can a model pred
Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical info
Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on
We introduce VideoKR, the first large-scale training corpus specifically designed to strengthen knowledge- and
Experience internalization converts contextual experience from past interactions into reusable parametric capa
We study the personal camera roll visual question answering setting. In this setting, a conversational AI assi
System prompt optimization improves agent behavior without modifying the underlying model, yielding human-read
Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference
Learning representations of CAD models is a largely open problem. While 3D representation learning has flouris
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and
Feed-forward 3D Gaussian Splatting methods reconstruct a scene from posed or pose-free images in a single forw
Autoregressive mesh generation has gained attention by tokenizing meshes into sequences and training models in
Training Data Attribution (TDA) seeks to trace a model's predictions back to its training data. The gold stand
Large language models (LLMs) are increasingly proposed as clinical agents, yet static, single-turn benchmarks
Instruction-guided speech editing requires a model to modify specified speech attributes while preserving unre
This paper proposes a two-stage pseudo anomaly-guided anomaly detection method (\textbf{T}wo-stage \textbf{P}s
Large Language Models remain plagued by hallucinations. Recent work has sought to tame their prevalence using
Score-based diffusion models have emerged as prominent deep generative models; however, their application to t
この研究は、医療従事者が病気の症状を検出し、診断するのを支援するように設計されています。研究者らは、AIのアルゴリズムを開発し、そのアルゴリズムを臨床試験で検証したところ、AIが医療関係者とほぼ同じレベルの精度で病気の症
Spiking language models expose activation sparsity that dense Transformer runtimes do not directly exploit. Th
Text-to-image models rely on text prompts as their primary interface to human intent. Prompts are encoded by a
Equipping Large Language Models (LLMs) to execute reliable multi-step workflows has become a central challenge
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify
Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet
Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science.
Few-step distillation has become an effective strategy for accelerating advanced visual generative models, yet
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous
On-policy self-distillation, where a language model conditions on privileged context to supervise its own gene
High-quality pretraining data is a central ingredient in modern language models, but German-language resources
Memory is an indispensable capability for long-horizon LLM agents, enabling them to preserve and utilize infor
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video
Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the re
Structured financial audit verification is difficult for language-model agents because correctness depends on
Computer-use agents extend language models from text generation to sustained interaction with files, terminals
Large language model (LLM) agents are evolving from request-response assistants into long-running software act
Graph Language Models (GLMs) have become a promising direction for adapting Large Language Models (LLMs) to gr
Training and scaling Large Language Models demand enormous computational resources, motivating both efficient
Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spe
We present a single classification pipeline that combines an Equiangular Tight Frame (ETF) preprocessing stage
Robust optimization offers a tractable approach to balance operating costs and reliability in power systems do
High-dimensional interaction models are useful for studying, for example, how a large set of variables of inte
This paper explores policy learning from observational data, focusing on a nonlinear welfare criterion in a bi
Genetic programming (GP) approaches are among the state-of-the-art for symbolic regression, the task of constr
Recent leaderboard-based evaluations of large language models aggregate user feedback by fitting a Bradley--Te
Traditional bilateral negotiation support systems search over discrete allocation spaces. This approach encoun
Agentic language model systems alternate between two structurally distinct step types: structured tool calls (
Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, off
Financial AI agents often fail for a simple reason: they make users carry the complexity. A user must repeated
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existin
Agentic LLMs with web search change the threat model for text anonymization: weak contextual cues can become c
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
On-Policy distillation (OPD) in large language models is shifting from full-trace KL supervision toward more s
Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. Ho
このリポジトリでは、Lecture Learning Modelsに対してReinforcement Learningを実行するライブラリを提供しています。
We study linear contextual bandits under rare parameter updates: the learner may incorporate reward feedback i
Large language models are increasingly deployed as advisors whose objective is not aligned with the user's: re
An influential paper of Calvano et al. empirically demonstrated that Q-learning agents spontaneously collude w
A single seller offers one or more goods to a single buyer. The buyer's values and the seller's costs are priv
We study two-player zero-sum games (TPZSGs) with bandit feedback under fairness constraints requiring every ac
Large language models are increasingly deployed as coding agents, shifting safety from individual responses to
The rapid progress of frontier large language models has led to widespread benchmark saturation, limiting the
Open-dLLMはOpen diffusion language modelを公開しており、コード生成の前トレーニング、評価、推論、チェックポイントを公開しています。
Real-world datasets across image and text domains are often characterized by skewed class distributions and no
Modern Machine Learning (ML) and Artificial Intelligence (AI) models, especially large language models (LLMs),
Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. Howe
Agentic search systems iteratively interact with retrieval models to answer complex queries. Despite substanti
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genui
What made useful knowledge cumulative was not discovery alone but the institutions that transmitted it. We pro
The emergence of specialized, domain-tuned Large Language Models (LLMs) has demonstrated that smaller models c
In this work we study agents in simulated bargaining scenarios, where a buyer and a seller communicate through
AI benchmarks have well-documented limitations, with prior work examining contamination, saturation, and const
Large Language Models exhibit paradoxical fragility in fundamental arithmetic, implying a disconnect between i
Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (
Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relatio
このリポジトリはChatGPT、GPT-3、FlanT5などのLLMsの在り方や、in-context learningとprompt engineeringのリソースをまとめたものです。
Small and medium-sized enterprises (SMEs) represent the majority of firms in most economies and often face fin
Recently, the runtime analysis of multi-valued estimation-of-distribution algorithms in the framework of Ben J
LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combi
ポーカーはIAの代表的な問題です。しかし、強いエキスパートレベルを達成するために、長時間にわたるトレーニングと解釈が必要とされてきました。LLMを使用すると、トレーニングやソルバーが不要となり、ポーカーをプレイすることが
次世代LLMモデルの協力性に影響を与える要因について調査した。ChatGPT-4oとClaude 3.5 Sonnetは共通の協力性を持っていたが、提供元は違いだった。
Forecasting outcomes in mixed-motive negotiations requires integrating explicit linguistic cues with latent st
Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajector
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction hist
We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision b
Evolutionary computation offers a variety of tools to solve complex real-world optimization problems. However,
Evolutionary systems have demonstrated remarkable results in creative domains, with recent applications in gen
We study bandit learning in matching markets, where players and arms constitute the two market sides, and the
Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all ex
Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both para
Efficient inference is critical for long-context language models, where attention computation and KV-cache acc
画像エディティング用推論モデルの改良方法についての公式実装であるFlowEdit。
MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。
強化学習を利用し、LLMを最適化するには、適切なパラメータを選択することが重要です。この研究では、強化学習のパラメータがLLMの性能にどのような影響を与えるかを調査し、パラメータを最適化する方法を提案することを目指す。
Frontier LLM agents engage in blackmail, sabotage, and document leaks under goal conflicts in agentic settings
The classic concept of "calibrated forecasts" and its more recent refinement, "calibeating," are defined with
We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework tha
The success of deployed agents relies on their ability to handle open-ended user requests using their inherent
Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple eva
Matcha-TTSは、高速で条件付き流のマッチングを実現するTTSアーキテクチャであり、話者の特徴を考慮する。
CVPR 2023で発表されたCustom Diffusionは、テキストから画像を生成するプロセスをカスタマイズできるDiffusionモデルです。テキストからイメージを生成する際の要件を設定できるので、画像生成の柔軟
The popularity and rapid development of Cloud Computing in recent years has led to a vast number of publicatio
PaddleNLPは、分類モデルと言語モデルを簡単に使用できる強力なライブラリであり、モデルズーという素晴らしいモデル・ザーのコレクションを備えています。
Marine plankton underpin aquatic food webs and play a key role in global CO2 sequestration, making reliable sp
Peer selection, the evaluation and selection of agents by their peers, is an important problem in the field of
この論文では、大規模言語モデルに戦略的推論を評価する方法を提案します。
Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce nume
rasaは、テキストやボイスベースの会話を自動化するオープンソースの機械学習フレームワークです。自然言語理解(NLU)、会話管理、 slackやFacebook等への接続など、幅広い機能を提供しています。
language modelは、現在、novelな環境に一般化することが求められ、推論尺度を伸ばす検索手法であるAlphaEvolveと組み合わせることが求められます。しかし、標準的なparadigmではLLMは、pre
LLMに先行する存在としての人間の優位性を研究し、コロニエル・ブロットー・ゲームの一種であるColonel Blotto Tournamentで、人間がLLMに勝ったことが知られている。
LLMを使用して、自然言語処理における情報抽出を行うためのPythonライブラリです。
コード生成を進化させるために、最近の研究では LLMs と進化する検索を組み合わせて、タスクに特化したフィードバックを使用してコードを生成、編集、そして選択することを実現している。タスクに特化した評価者でのベストスコアは
LLM(大規模言語モデル)を利用してテキストパラメータを最適化するシステムを提案しました。このシステムは、単一のシステムでさまざまなタスク(単一タスク、複数タスク、未知の入力など)を実行可能でした。また、システムは、最適
Multimodal large language models often generate reasoning chains containing subtle errors that lead to incorre
この研究では、CFR(Counterfactual Regret Minimization)アルゴリズムを改良して、リアルタイムゲームの最適行動を推定することを目的としていますCFRは、決定を下す時間が厳密に制限されてい
💫 Industrial-strength Natural Language Processing (NLP) in Python
Surrogate Safety Measures (SSMs) are extensively utilised in the evaluation of traffic risk in automated drivi
Correlated equilibria are a fundamental solution concept in game theory. However, despite decades of research,
This paper studies Social Law Synthesis (SLS) in strategic multi-agent environments as a new multi-unit mechan
Large language models (LLMs) achieve strong performance across a wide range of tasks but are highly sensitive
Hippocampal-Entorhinal の構造を取り入れ、抽象的な表現と予測的世界モデルを学習します。
これは、パフォーマンスの高いモデルサイズの減少を実現するために、Perforated Neural Networkがキーワード検出タスクに適用されていることを検証したり、Edge Impulseで動作するキーワード検出シ
ゲームの抽象化を実現する方法を提案した研究は、ゲームを大きくする要因を削減するために役立つ。しかし従来の方法は、別のゲームに応用する際にゲームごとに分析する必要がある。これは、抽象化を一般化するの難しい原因の1つとなる。
Standard deep-learning pipelines usually choose the network architecture before training and keep it fixed thr
Darwin Family
We study a repeated information design setting in which the receiver, who is also the decision-maker, updates
ゲームにおけるAIツールの不正利用を検出、防止するための中間フォームゲームにおける水印技術の開発
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。
保存エネルギーを活用するための脳モデルを設計し、脳モデルの中間表現を解釈することを目標とした方法を提案した。
テクスチャの再生と接合を可能にする方法を提案し、NCAsをテクスチャ生成に利用することを目標としている。
多分類パラメーターを扱うためのタイプ-実現した共進化の方法を提案し、この方法が実
Strategic crisis analysis needs representations that combine qualitative expert judgement, explicit interdepen
Negotiation is a central mechanism of economic exchange, shaping markets, procurement, labor agreements, and r
We study the problem of learning Nash equilibria in offline two-player zero-sum Markov games. While existing a
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。
Advances in large language models (LLMs) have recently opened new and promising avenues for small-molecule dru
Solve the Loopは、屈折トランフォーマーの改善に役立つアルゴリズムを紹介する研究である。
Model merging has emerged as a cost-effective alternative to training large language models (LLMs) from scratc
We propose graph-grounded optimization: a paradigm in which the decision variables, constraints, and objective
再帰的ネットワークは複雑なプロセッサを持つため、最適化は難しい。計算資源に制限がある場合、パラメータを分配する際のバランスを取る必要がある。
Sponsored search auctions are commonly modeled as an assignment of a fixed set of slots (positions) to a set o
We decompose an evolutionary mixture-of-LoRA system on a from-scratch ~150M-parameter widened-D substrate (D=1
FPGA上でスパイク神経ネットワークモデルを実装し、エネルギー消費を削減する方法を提案しています。
マルチエージェントシステムのゲーム理論的枠組みを構築し、エキサイタブルの理論的基盤を提供することを目指しています。
この研究では、適応性とリメインリングの関係を調査しました。これは、動的な環境における学習において重要な要素です。
人間的抽象化を推定するための新たなアプローチを提案し、未知のタスクを効率的に学習することができます。
Generative AI models differ from traditional machine learning tools in that they allow users to provide as muc
Large Language Models exhibit mode collapse, producing homogeneous outputs that fail to explore valid solution
Gradient-based preference optimization methods for large language model (LLM) alignment suffer from preference
We introduce Evolutionary Ensemble (EvE), a decentralized framework that organizes existing, highly capable co
We present ARES-LSHADE, a memetic differential-evolution variant submitted to the GECCO 2026 competition on LL
Automatic heuristic design (AHD) has emerged as a promising paradigm for solving NP-hard combinatorial optimiz
Generating high-performance GPU kernels remains challenging due to the need for both correctness and hardware-
CoupleEvoは、大規模言語モデルを活用したカップルの最適化問題の自動ヒューリスティクーデザインアプローチを提案します。3つの進化的調整戦略が提示されます。
Speech-based large language models are typically constrained to spoken replies, which limits their user-facing
Diffusion-based image editing has achieved strong visual fidelity under natural language instructions, yet mos