supervision — We write your reusable computer vision tools. 💜
supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
- 用途
- オリジナルコンピュータビジョンツール
- 難易度
- Easy
- コスト
- High
「video」の検索結果
57 件supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
mediapipeは、クロスプラットフォームでカスタマイズ可能なライブおよびストリーミングメディア向けのMLソリューションを提供している。
.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。
CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。
イメージを注釈するツール。ポリゴン、長方形、円、線、点などを注釈することができる。
SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。
FastVideoは、加速されたビデオ生成用の統合推論とポストトレーニングのフレームワークです。
zenmlは、データパイプラインからエージェントまで、AIプラットフォームです。
長時間のビデオ生成を実現するためのモデルのサポートを紹介している。
OpenWorldLibは、進化する世界モデルを提供する統一されたコードベースです。
FastVideoは、加速されたビデオ生成用に統一された推論およびポストトレーニングフレームワークです。
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
Traffic accident anticipation -- predicting the likelihood of an imminent collision at every frame of a dashca
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
Although video virtual try-on (VVT) has achieved significant progress, existing methods still exhibit two fund
画像やビデオやオーディオディフュージョンモデルのファインチューニングを行うための、汎用的なファインチューニングキット。
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, r
We introduce StreamForce, a streaming video generation framework that enables physically grounded control thro
この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive
Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently pr
Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs i
Video generation models have made impressive strides in synthesizing visually compelling content, yet their ou
Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predo
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Ex
Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, r
ビデオのワールドモデルを用いて、AR拡散式を含む幅広いアルゴリズム、アプリケーション、インフラが提供され、研究者や実務家など幅広い人々に役立つリソースとして提供される。
We introduce VideoKR, the first large-scale training corpus specifically designed to strengthen knowledge- and
World-action models (WAMs) jointly generate future video and robot actions through iterative diffusion, achiev
Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference
We present Echo Infinity, an autoregressive (AR) framework towards real-time infinite video generation that em
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability.
Scaling humanoid loco-manipulation requires robot-compatible demonstrations across diverse objects, whole-body
このリポジトリはコンピュータサイエンスのビデオコースの一覧を提供しています。
3D vision has rapidly evolved, driven by increasingly diverse data representations, learning paradigms, and mo
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the re
CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existin
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
[CVPR'26 Highlight] Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genui
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (
OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。
nano-world-modelは、ワールドモデルの研究や開発を支援するためのオープンソースプロジェクトです。
MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。
Awesome-Video-Diffusionは、Recent Diffusion Models for Video Generation, Editing, and Othersのリストを公開しています。
Recent video-based world models have made pixel-space environments interactive at the camera level: users can
画像生成のためのHigh Quality Training Free Inpaintを提供します。このInpaintはStable Diffusionモデルに使用でき、ComfyUIもサポートしています。
awesome-artificial-intelligenceは、人工知能に関する教材、アートcles、講義等を集め、提供しているオープンソースプロジェクトです。
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。