MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「video」の検索結果

25 件

すべて arxiv github huggingface 実装あり

githubGitHubあり2026-06-09

supervision — We write your reusable computer vision tools. 💜

supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。

コンピュータビジョン物体検出分類検出セグメンテーション

用途: オリジナルコンピュータビジョンツール
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

mediapipe — Cross-platform, customizable ML solutions for live and streaming media.

mediapipeは、クロスプラットフォームでカスタマイズ可能なライブおよびストリーミングメディア向けのMLソリューションを提供している。

MLOpsモデルデプロイ音声動画

用途: ライブおよびストリーミングメディア用MLソリューション
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

diffusers — 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.

.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。

生成AI拡散モデル生成画像テキスト

用途: 画像・動画・音声生成
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

cvat — Computer Vision Annotation Tool (CVAT) is a leading platform for building high-quality visual datasets for vision AI. It offers open-source, cloud, and enterprise products, as well as labeling services, for image, video, and 3D annotation with AI-assisted labeling, quality assurance, team collaboration, analytics, and developer APIs.

CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。

品質予測/異常検知コンピュータビジョンセグメンテーション分類検出画像

用途: データのラベル付けと管理
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

labelme — Image annotation with Python. Supports polygon, rectangle, circle, line, point, and AI-assisted annotation.

イメージを注釈するツール。ポリゴン、長方形、円、線、点などを注釈することができる。

コンピュータビジョンセグメンテーション分類画像動画

用途: イメージ注釈
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

Sana — SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。

深層学習Transformer生成画像テキスト

用途: 高解像度画像合成
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

FastVideo — A unified inference and post-training framework for accelerated video generation.

FastVideoは、加速されたビデオ生成用の統合推論とポストトレーニングのフレームワークです。

深層学習軽量化・量子化生成動画

用途: ビデオ生成を加速する
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

LightX2V — Light Image Video Generation Inference Framework

zenmlは、データパイプラインからエージェントまで、AIプラットフォームです。

生成AI拡散モデル生成画像動画

用途: AI推論を軽量化したインフラ
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

Helios — Helios: Real Real-Time Long Video Generation Model

長時間のビデオ生成を実現するためのモデルのサポートを紹介している。

深層学習軽量化・量子化生成画像テキスト

用途: ビデオ生成
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

OpenWorldLib — Unified Codebase for Advanced World Models.

OpenWorldLibは、進化する世界モデルを提供する統一されたコードベースです。

コンピュータビジョン3D・点群生成動画3D

用途: 世界モデルを提供する
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-09

onnxruntime — ONNX Runtime: cross-platform, high performance ML inferencing and training accelerator

FastVideoは、加速されたビデオ生成用に統一された推論およびポストトレーニングフレームワークです。

MLOpsモデルデプロイ

用途: クロスプラットフォーム高性能ML推論用エンジンの実現
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-07

SimpleTuner — A general fine-tuning kit geared toward image/video/audio diffusion models.

画像やビデオやオーディオディフュージョンモデルのファインチューニングを行うための、汎用的なファインチューニングキット。

自然言語処理ファインチューニング画像音声動画

用途: ディフュージョンモデルのファインチューニング
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-06

DiT-Extrapolation — Official implementation for "RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers" (ICML 2025) , UltraViCo (ICLR 2026) and UltraImage

分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に

深層学習Transformer生成画像動画

用途: 多クラス分類タスク
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-05

Causal-Forcing — [ICML 2026] Official codebase for "Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation" & Causal Forcing++

この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive

品質予測/異常検知深層学習軽量化・量子化生成テキスト動画

用途: 高品質のビデオ生成を実現する。
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-04

Awesome-Video-World-Models-with-AR-Diffusion — A Curated List of Awesome Video World Models with AR Diffusion: Covering Algorithms, Applications, and Infrastructure, Aimed at Serving as a Comprehensive Resource for Researchers, Practitioners, and Enthusiasts.

ビデオのワールドモデルを用いて、AR拡散式を含む幅広いアルゴリズム、アプリケーション、インフラが提供され、研究者や実務家など幅広い人々に役立つリソースとして提供される。

生成AI拡散モデル生成動画

用途: アンビシャスのためのビデオの世界モデル
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-03

cs-video-courses — List of Computer Science courses with video lectures.

このリポジトリはコンピュータサイエンスのビデオコースの一覧を提供しています。

機械学習教師あり学習動画

用途: 教育資源の共有
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-02

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画

用途: AIをCVPRに応用する
難易度: Easy
コスト: High

→

githubGitHubあり2026-06-01

Ditto — [CVPR'26 Highlight] Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

[CVPR'26 Highlight] Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

品質予測/異常検知生成AI拡散モデル動画

用途: 実装・検証基盤
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-28

openFrameworks — openFrameworks is a community-developed cross platform toolkit for creative coding in C++.

OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。

コンピュータビジョン音声動画

用途: クリエイティブコーディングのためのクロスプラットフォームツールキット
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-27

nano-world-model — A Minimalist, Batteries-included Repository for Advancing World Model Science.

nano-world-modelは、ワールドモデルの研究や開発を支援するためのオープンソースプロジェクトです。

生成AI拡散モデル生成動画

用途: ワールドモデルの研究と発展
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-27

memvid — Memory layer for AI Agents. Replace complex RAG pipelines with a serverless, single-file memory layer. Give your agents instant retrieval and long-term memory.

MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。

自然言語処理大規模言語モデル生成テキスト動画

用途: AIエージェントの記憶を管理する
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-26

Awesome-Video-Diffusion — A curated list of recent diffusion models for video generation, editing, and various other applications.

Awesome-Video-Diffusionは、Recent Diffusion Models for Video Generation, Editing, and Othersのリストを公開しています。

生成AI拡散モデル生成動画

用途: ビデオ生成や編集の問題を解決する
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-21

LanPaint — High quality training free inpaint for every stable diffusion model. Supports ComfyUI

画像生成のためのHigh Quality Training Free Inpaintを提供します。このInpaintはStable Diffusionモデルに使用でき、ComfyUIもサポートしています。

品質予測/異常検知生成AI拡散モデル生成画像動画

用途: 画像生成
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-17

awesome-artificial-intelligence — A curated list of Artificial Intelligence (AI) courses, books, video lectures and papers.

awesome-artificial-intelligenceは、人工知能に関する教材、アートcles、講義等を集め、提供しているオープンソースプロジェクトです。

機械学習教師なし学習動画教師なし

用途: AIに関するリソースの集めと提供
難易度: Easy
コスト: High

→

githubGitHubあり2026-05-14

VidCom2 — [EMNLP 2025 Main] Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models

VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。

深層学習軽量化・量子化テキスト動画マルチモーダル

用途: ビデオ圧縮改善
難易度: Easy
コスト: High

→