Echo-Memory: A Controlled Study of Memory in Action World Models
この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。
- 用途
- エピソード記憶
- 難易度
- Hard
- コスト
- High
「video」の検索結果
84 件この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。
With AI increasingly deployed in safety-critical systems, providing formal robustness guarantees for the under
We study whether pretrained video foundation models encode intuitive-physics information in their frozen repre
動画大規模言語モデルを使用した質問に対する回答を研究。モデルの能力と限界を調査し、質問に対する答えを生成するための方法を提案した。
この研究では、テキスト、画像、ビデオ、アウディオ等の異なるモダリティのデータを統合したオムニモダル検索システムを構築します。
この論文では、VideoQA が過度に信憑性の
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
Video retrieval at scale is central to data curation and safety validation in autonomous driving, where users
Video generative models have become increasingly powerful, but long-range consistency remains challenging to a
ワールドアクションモデルを高速化するために、情報のキャッシュと伝達を提案します。
この論文では、ロボット手術の制御を改善するために、ロボットの視覚的シーンの動作と操作を同時にモデル化する方法を提案する。
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
AIのミニドラマ(または果実のドラマ)は、最近、ソーシャルメディアプラットフォーム上で広まった短い、アルゴリズム的かつ分散された生成AIビデオシリーズです。これらのビデオの視覚表現は、性的に見えると思われる果物が表現され
Egocentricビデオを利用して手の圧力を推定できるモデル EgoTactile を提案している。
Egocentric visionを使用して、ペダストリアンの歩く道に渡るのを予測する。Closed-ended visual question answering(VQA)問題に形式することで、ビジョン言語モデルを使用
Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understandi
この研究では、静黙の口承のシンセシスを実現するためのフレームワークを開発します。このフレームワークは、静黙の口承のシンセシスと精度を改善することができます。
Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit poi
Temporal modeling is essential for robotic manipulation, as effective control requires both memory of past int
Eye movements, including saccades, are widely regarded as highly sensitive and objective biomarkers of neuroph
The dominant paradigm in video retrieval relies on embedding-based full-corpus scanning, which suffers from in
The fidelity and structural diversity of training datasets fundamentally determine the capabilities of video g
Traffic accident anticipation -- predicting the likelihood of an imminent collision at every frame of a dashca
Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame late
Video world models have made rapid progress in generating controllable visual experiences, but most of them st
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
Synthetic aperture radar (SAR)-assisted optical cloud removal aims to recover surface information obscured by
In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Ch
Adapting large-scale pre-trained video generators for Video Super-Resolution (VSR) in novel domains remains co
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
4D generation (\textit{i.e.}, dynamic 3D generation) has recently emerged as a rapidly growing research fronti
Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (
Video semantic segmentation for low-altitude UAVs requires temporal consistency, yet dense optical flow introd
Autoregressive (AR) models have demonstrated strong potential in visual generation, offering superior performa
While recent autoregressive video diffusion models achieve remarkable streaming quality, they remain confined
Embodied policies typically map current observations directly to actions, leaving candidate-action consequence
World Action Models (WAMs) couple a video dynamics prior to the policy and have shown encouraging results on t
Vision-Language Models (VLMs) are increasingly required to process unbounded video streams in applications suc
Existing zero-shot video editing methods rely on pre-trained diffusion models, successfully achieving spatial
Existing video generation frameworks treat sequence duration as an externally prescribed parameter -- fixed fr
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
Emotional Video Captioning (EVC) is a challenging task that aims to generate factually accurate and emotionall
Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For
Reward models play a pivotal role in reinforcement learning (RL) and multi-modal trajectory selection for auto
Although video virtual try-on (VVT) has achieved significant progress, existing methods still exhibit two fund
The task of temporal answer grounding in instructional video (TAGV), which aims to locate precise video segmen
While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertio
Human manipulation videos are a convenient and intuitive source for robot learning. However, directly transfer
Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the re
This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via Multimo
Standard dynamic vision sensors approximate retinal processing by detecting temporal contrast changes, offerin
Recent advances in Diffusion Transformers have driven rapid progress in video generation and editing, yet thes
World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional tr
Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified
Manipulation understanding requires reliable relational evidence, such as contact, support, containment, motio
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
In assisted teleoperation for human-robot collaboration, accurate intention prediction is critical for enablin
Vision-language-action (VLA) models increasingly condition robot policies on history, depth, or 4D features to
Multi-quadruped coordination has attracted increasing attention due to its enhanced payload capacity, broader
Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation
Egocentric RGB-D videos offer a natural source of human dexterous manipulation demonstrations, but existing da
Navigation using a monocular camera is pivotal for autonomous operation on tiny aerial robots due to their per
この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ
Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling ge
この論文では、四足ロボットのシマイルのためのQuadVerseフレームワークを提案した。QuadVerseは、視覚的、物理的、動的なギャップを考慮したシマイルを用い、四足ロボットの実験環境とシマイルを統合した。
Visual-language action (VLA) models enable robots to predict actions directly from observations and language i
World Action Models (WAMs) offer a promising approach to embodied intelligence, yet existing methods rely heav
VLNベンチマークでは、ディシクリットな操作や粗い操作が使われ、UAVのヴィジョンラングジュアクション(VLJ)タスクでは短い操作が中心で、長時間飛行に対応できるfineグラINEDUAVナビゲーション(FLIGHT)ベ
Human video datasets used for cotraining robot manipulation policies largely consist of curated demonstrations
この研究では、フェスタースター自動運
この研究では、人々が実際に操作を行っている場合に、人が視点を変更してカメラ動きを生み出しながら学習することの重要性を認識し、ActiveMimicというプレトランジングフレームワークを提案します。
この研究では、ヒューマノイドロボットのロコマニパションのための MotionDisco を提案し、ロボットは接触を検出して自律的に行動することができるようになります。
Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations,
統合された視覚言語アクションモデルを提案し、これを用いたタスクの性能を向上させることができるようになる。
Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ
Temporal systems often exhibit non-stationary behaviour, such as seasonal climate variation or glucose fluctua
The coordination of heterogeneous autonomous agents in dynamic, adversarial environments requires simultaneous
This paper investigates clustering in survival data by shifting the analytical focus from cumulative survival
We present a deep photonic neural network architecture based on ultrafast binary optical modulation from a dig
Recognizing and continuously learning novel human actions without forgetting prior classes is a requirement fo
この研究では、時間空間オブジェクト認識のためのお気に入りのサブストラットを開発するため、Spiking Reinterpretation of Thousand Brains Theoryという方法を提案しました。これは
The rapid proliferation of AI-generated visual media has created an urgent need for efficient, trustworthy dee
This paper studies Social Law Synthesis (SLS) in strategic multi-agent environments as a new multi-unit mechan
The spatial and functional organization of the primate visual cortex is a fundamental problem in neuroscience.