supervision — We write your reusable computer vision tools. 💜
supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
- 用途
- オリジナルコンピュータビジョンツール
- 難易度
- Easy
- コスト
- High
「video」の検索結果
136 件supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
mediapipeは、クロスプラットフォームでカスタマイズ可能なライブおよびストリーミングメディア向けのMLソリューションを提供している。
.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。
CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。
イメージを注釈するツール。ポリゴン、長方形、円、線、点などを注釈することができる。
SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。
FastVideoは、加速されたビデオ生成用の統合推論とポストトレーニングのフレームワークです。
zenmlは、データパイプラインからエージェントまで、AIプラットフォームです。
長時間のビデオ生成を実現するためのモデルのサポートを紹介している。
OpenWorldLibは、進化する世界モデルを提供する統一されたコードベースです。
FastVideoは、加速されたビデオ生成用に統一された推論およびポストトレーニングフレームワークです。
この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。
With AI increasingly deployed in safety-critical systems, providing formal robustness guarantees for the under
We study whether pretrained video foundation models encode intuitive-physics information in their frozen repre
動画大規模言語モデルを使用した質問に対する回答を研究。モデルの能力と限界を調査し、質問に対する答えを生成するための方法を提案した。
この研究では、テキスト、画像、ビデオ、アウディオ等の異なるモダリティのデータを統合したオムニモダル検索システムを構築します。
この論文では、VideoQA が過度に信憑性の
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
Video retrieval at scale is central to data curation and safety validation in autonomous driving, where users
Video generative models have become increasingly powerful, but long-range consistency remains challenging to a
ワールドアクションモデルを高速化するために、情報のキャッシュと伝達を提案します。
この論文では、ロボット手術の制御を改善するために、ロボットの視覚的シーンの動作と操作を同時にモデル化する方法を提案する。
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
AIのミニドラマ(または果実のドラマ)は、最近、ソーシャルメディアプラットフォーム上で広まった短い、アルゴリズム的かつ分散された生成AIビデオシリーズです。これらのビデオの視覚表現は、性的に見えると思われる果物が表現され
Egocentricビデオを利用して手の圧力を推定できるモデル EgoTactile を提案している。
Egocentric visionを使用して、ペダストリアンの歩く道に渡るのを予測する。Closed-ended visual question answering(VQA)問題に形式することで、ビジョン言語モデルを使用
Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understandi
この研究では、静黙の口承のシンセシスを実現するためのフレームワークを開発します。このフレームワークは、静黙の口承のシンセシスと精度を改善することができます。
Video world models that maintain 3D spatial consistency across generated frames typically rely on explicit poi
Temporal modeling is essential for robotic manipulation, as effective control requires both memory of past int
Eye movements, including saccades, are widely regarded as highly sensitive and objective biomarkers of neuroph
The dominant paradigm in video retrieval relies on embedding-based full-corpus scanning, which suffers from in
The fidelity and structural diversity of training datasets fundamentally determine the capabilities of video g
Traffic accident anticipation -- predicting the likelihood of an imminent collision at every frame of a dashca
Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame late
Video world models have made rapid progress in generating controllable visual experiences, but most of them st
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
Synthetic aperture radar (SAR)-assisted optical cloud removal aims to recover surface information obscured by
In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Ch
Adapting large-scale pre-trained video generators for Video Super-Resolution (VSR) in novel domains remains co
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
4D generation (\textit{i.e.}, dynamic 3D generation) has recently emerged as a rapidly growing research fronti
Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (
Video semantic segmentation for low-altitude UAVs requires temporal consistency, yet dense optical flow introd
Autoregressive (AR) models have demonstrated strong potential in visual generation, offering superior performa
While recent autoregressive video diffusion models achieve remarkable streaming quality, they remain confined
Embodied policies typically map current observations directly to actions, leaving candidate-action consequence
World Action Models (WAMs) couple a video dynamics prior to the policy and have shown encouraging results on t
Vision-Language Models (VLMs) are increasingly required to process unbounded video streams in applications suc
Existing zero-shot video editing methods rely on pre-trained diffusion models, successfully achieving spatial
Existing video generation frameworks treat sequence duration as an externally prescribed parameter -- fixed fr
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
Emotional Video Captioning (EVC) is a challenging task that aims to generate factually accurate and emotionall
Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For
Reward models play a pivotal role in reinforcement learning (RL) and multi-modal trajectory selection for auto
Although video virtual try-on (VVT) has achieved significant progress, existing methods still exhibit two fund
The task of temporal answer grounding in instructional video (TAGV), which aims to locate precise video segmen
While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertio
Human manipulation videos are a convenient and intuitive source for robot learning. However, directly transfer
画像やビデオやオーディオディフュージョンモデルのファインチューニングを行うための、汎用的なファインチューニングキット。
Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the re
This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via Multimo
Standard dynamic vision sensors approximate retinal processing by detecting temporal contrast changes, offerin
Recent advances in Diffusion Transformers have driven rapid progress in video generation and editing, yet thes
World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional tr
Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified
Manipulation understanding requires reliable relational evidence, such as contact, support, containment, motio
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
In assisted teleoperation for human-robot collaboration, accurate intention prediction is critical for enablin
Vision-language-action (VLA) models increasingly condition robot policies on history, depth, or 4D features to
Multi-quadruped coordination has attracted increasing attention due to its enhanced payload capacity, broader
Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation
Egocentric RGB-D videos offer a natural source of human dexterous manipulation demonstrations, but existing da
分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に
Navigation using a monocular camera is pivotal for autonomous operation on tiny aerial robots due to their per
この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ
Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling ge
この論文では、四足ロボットのシマイルのためのQuadVerseフレームワークを提案した。QuadVerseは、視覚的、物理的、動的なギャップを考慮したシマイルを用い、四足ロボットの実験環境とシマイルを統合した。
Visual-language action (VLA) models enable robots to predict actions directly from observations and language i
World Action Models (WAMs) offer a promising approach to embodied intelligence, yet existing methods rely heav
VLNベンチマークでは、ディシクリットな操作や粗い操作が使われ、UAVのヴィジョンラングジュアクション(VLJ)タスクでは短い操作が中心で、長時間飛行に対応できるfineグラINEDUAVナビゲーション(FLIGHT)ベ
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, r
We introduce StreamForce, a streaming video generation framework that enables physically grounded control thro
この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive
Human video datasets used for cotraining robot manipulation policies largely consist of curated demonstrations
この研究では、フェスタースター自動運
この研究では、人々が実際に操作を行っている場合に、人が視点を変更してカメラ動きを生み出しながら学習することの重要性を認識し、ActiveMimicというプレトランジングフレームワークを提案します。
この研究では、ヒューマノイドロボットのロコマニパションのための MotionDisco を提案し、ロボットは接触を検出して自律的に行動することができるようになります。
Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations,
統合された視覚言語アクションモデルを提案し、これを用いたタスクの性能を向上させることができるようになる。
Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ
Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently pr
Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs i
Video generation models have made impressive strides in synthesizing visually compelling content, yet their ou
Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predo
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Ex
Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, r
ビデオのワールドモデルを用いて、AR拡散式を含む幅広いアルゴリズム、アプリケーション、インフラが提供され、研究者や実務家など幅広い人々に役立つリソースとして提供される。
We introduce VideoKR, the first large-scale training corpus specifically designed to strengthen knowledge- and
World-action models (WAMs) jointly generate future video and robot actions through iterative diffusion, achiev
Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference
We present Echo Infinity, an autoregressive (AR) framework towards real-time infinite video generation that em
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability.
Scaling humanoid loco-manipulation requires robot-compatible demonstrations across diverse objects, whole-body
このリポジトリはコンピュータサイエンスのビデオコースの一覧を提供しています。
3D vision has rapidly evolved, driven by increasingly diverse data representations, learning paradigms, and mo
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the re
CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。
Temporal systems often exhibit non-stationary behaviour, such as seasonal climate variation or glucose fluctua
The coordination of heterogeneous autonomous agents in dynamic, adversarial environments requires simultaneous
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existin
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
[CVPR'26 Highlight] Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
This paper investigates clustering in survival data by shifting the analytical focus from cumulative survival
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genui
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (
We present a deep photonic neural network architecture based on ultrafast binary optical modulation from a dig
OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。
Recognizing and continuously learning novel human actions without forgetting prior classes is a requirement fo
nano-world-modelは、ワールドモデルの研究や開発を支援するためのオープンソースプロジェクトです。
MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。
Awesome-Video-Diffusionは、Recent Diffusion Models for Video Generation, Editing, and Othersのリストを公開しています。
Recent video-based world models have made pixel-space environments interactive at the camera level: users can
この研究では、時間空間オブジェクト認識のためのお気に入りのサブストラットを開発するため、Spiking Reinterpretation of Thousand Brains Theoryという方法を提案しました。これは
画像生成のためのHigh Quality Training Free Inpaintを提供します。このInpaintはStable Diffusionモデルに使用でき、ComfyUIもサポートしています。
The rapid proliferation of AI-generated visual media has created an urgent need for efficient, trustworthy dee
awesome-artificial-intelligenceは、人工知能に関する教材、アートcles、講義等を集め、提供しているオープンソースプロジェクトです。
This paper studies Social Law Synthesis (SLS) in strategic multi-agent environments as a new multi-unit mechan
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。
The spatial and functional organization of the primate visual cortex is a fundamental problem in neuroscience.