video」の検索結果

136
githubGitHubあり2026-06-09

cvat — Computer Vision Annotation Tool (CVAT) is a leading platform for building high-quality visual datasets for vision AI. It offers open-source, cloud, and enterprise products, as well as labeling services, for image, video, and 3D annotation with AI-assisted labeling, quality assurance, team collaboration, analytics, and developer APIs.

CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。

品質予測/異常検知コンピュータビジョンセグメンテーション分類検出画像
用途
データのラベル付けと管理
難易度
Easy
コスト
High
arxivPaper only2026-06-08

Echo-Memory: A Controlled Study of Memory in Action World Models

この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。

品質予測/異常検知コンピュータビジョンセグメンテーション生成画像テキスト
用途
エピソード記憶
難易度
Hard
コスト
High
arxivPaper only2026-06-08

ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset

LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。

品質予測/異常検知コンピュータビジョン動画認識検出画像テキスト
用途
医学論文執筆のサポート
難易度
Hard
コスト
High
githubGitHubあり2026-06-06

DiT-Extrapolation — Official implementation for "RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers" (ICML 2025) , UltraViCo (ICLR 2026) and UltraImage

分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に

深層学習Transformer生成画像動画
用途
多クラス分類タスク
難易度
Easy
コスト
High
arxivPaper only2026-06-05

Dash2Sim: Closed-Loop Driving Simulation from in-the-wild Dashcam Videos

この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ

センサ/時系列品質予測/異常検知コンピュータビジョン3D・点群生成テキスト動画
用途
ドライビングシミュレーションのためのフレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-05

QuadVerse: An Integrated Framework Aligning Visual-Physical Reality for Quadruped Simulation

この論文では、四足ロボットのシマイルのためのQuadVerseフレームワークを提案した。QuadVerseは、視覚的、物理的、動的なギャップを考慮したシマイルを用い、四足ロボットの実験環境とシマイルを統合した。

品質予測/異常検知自然言語処理RAG画像動画3D
用途
四足ロボットのシマイル
難易度
Hard
コスト
High
githubGitHubあり2026-06-05

Causal-Forcing — [ICML 2026] Official codebase for "Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation" & Causal Forcing++

この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive

品質予測/異常検知深層学習軽量化・量子化生成テキスト動画
用途
高品質のビデオ生成を実現する。
難易度
Easy
コスト
High
arxivPaper only2026-06-04

Towards a Data Flywheel for Embodied Intelligence in Logistics

Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ

コンピュータビジョンマルチモーダル異常検知テキスト動画
用途
ロボットの行動予測に適した空間を構築
難易度
Hard
コスト
High
githubGitHubあり2026-06-04

Awesome-Video-World-Models-with-AR-Diffusion — A Curated List of Awesome Video World Models with AR Diffusion: Covering Algorithms, Applications, and Infrastructure, Aimed at Serving as a Comprehensive Resource for Researchers, Practitioners, and Enthusiasts.

ビデオのワールドモデルを用いて、AR拡散式を含む幅広いアルゴリズム、アプリケーション、インフラが提供され、研究者や実務家など幅広い人々に役立つリソースとして提供される。

生成AI拡散モデル生成動画
用途
アンビシャスのためのビデオの世界モデル
難易度
Easy
コスト
High
githubGitHubあり2026-06-02

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画
用途
AIをCVPRに応用する
難易度
Easy
コスト
High
githubGitHubあり2026-05-28

openFrameworks — openFrameworks is a community-developed cross platform toolkit for creative coding in C++.

OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。

コンピュータビジョン音声動画
用途
クリエイティブコーディングのためのクロスプラットフォームツールキット
難易度
Easy
コスト
High
githubGitHubあり2026-05-27

memvid — Memory layer for AI Agents. Replace complex RAG pipelines with a serverless, single-file memory layer. Give your agents instant retrieval and long-term memory.

MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。

自然言語処理大規模言語モデル生成テキスト動画
用途
AIエージェントの記憶を管理する
難易度
Easy
コスト
High
arxivPaper only2026-05-21

Temporal Coding as a Substrate for Sensorimotor Object Inference: A Spiking Reinterpretation of Thousand Brains Architecture

この研究では、時間空間オブジェクト認識のためのお気に入りのサブストラットを開発するため、Spiking Reinterpretation of Thousand Brains Theoryという方法を提案しました。これは

センサ/時系列コンピュータビジョン動画認識分類
用途
時間空間オブジェクト認識のためのお気に入りのサブストラットの開発
難易度
Hard
コスト
High