image」の検索結果

44
githubGitHubあり2026-06-09

cvat — Computer Vision Annotation Tool (CVAT) is a leading platform for building high-quality visual datasets for vision AI. It offers open-source, cloud, and enterprise products, as well as labeling services, for image, video, and 3D annotation with AI-assisted labeling, quality assurance, team collaboration, analytics, and developer APIs.

CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。

品質予測/異常検知コンピュータビジョンセグメンテーション分類検出画像
用途
データのラベル付けと管理
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

sglang — SGLang is a high-performance serving framework for large language models and multimodal models.

SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。

深層学習Transformer画像テキストマルチモーダル
用途
大規模言語モデルのサービングフレームワーク
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像
用途
強化学習フレームワーク
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

qdrant — Qdrant - High-performance, massive-scale Vector Database and Vector Search Engine for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/

このリポジトリでは、データとAIアルゴリズムを製品化するためのプラットフォームであるTaipyを提供しています。

自然言語処理埋め込み・検索生成画像
用途
AIアプリケーションを製品化するためのプラットフォーム
難易度
Easy
コスト
Low
githubGitHubあり2026-06-09

unstructured — Convert documents to structured data effortlessly. Unstructured is open-source ETL solution for transforming complex documents into clean, structured formats for language models. Visit our website to learn more about our enterprise grade Platform product for production grade workflows, partitioning, enrichments, chunking and embedding.

ドキュメントを構造化するために使えるオープンソースのETLソリューション。

表形式向き自然言語処理大規模言語モデル画像テキスト表形式
用途
ドキュメントの構造化
難易度
Easy
コスト
High
githubGitHubあり2026-06-07

presidio — An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。

表形式向き深層学習Transformer分類検出画像
用途
データのプライバシーを保護する
難易度
Easy
コスト
Low
githubGitHubあり2026-06-06

EEGUnity — An open source tool for large-scale EEG datasets processing

ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション

コンピュータビジョンマルチモーダル
用途
ビデオ diffusioin trasformerで長さのエキサポレーション
難易度
Easy
コスト
High
githubGitHubあり2026-06-06

DiT-Extrapolation — Official implementation for "RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers" (ICML 2025) , UltraViCo (ICLR 2026) and UltraImage

分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に

深層学習Transformer生成画像動画
用途
多クラス分類タスク
難易度
Easy
コスト
High
githubGitHubあり2026-06-03

pytorch-image-models — The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (ViT), MobileNetV4, MobileNet-V3 & V2, RegNet, DPN, CSPNet, Swin Transformer, MaxViT, CoAtNet, ConvNeXt, and more

PyTorchで使用できる画像エンコーダとバックボーンの最大のコレクションです。トレーニング、評価、推論など様々なスクリプトや事前の重み付きデータが含まれます。

深層学習Transformer分類画像
用途
PyTorchで使用できる画像エンコーダとバックボーン
難易度
Easy
コスト
High
githubGitHubあり2026-06-02

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画
用途
AIをCVPRに応用する
難易度
Easy
コスト
High
githubGitHubあり2026-05-24

custom-diffusion — Custom Diffusion: Multi-Concept Customization of Text-to-Image Diffusion (CVPR 2023)

CVPR 2023で発表されたCustom Diffusionは、テキストから画像を生成するプロセスをカスタマイズできるDiffusionモデルです。テキストからイメージを生成する際の要件を設定できるので、画像生成の柔軟

自然言語処理ファインチューニング生成画像テキスト
用途
画像生成のカスタマイズ
難易度
Easy
コスト
High
githubGitHubあり2026-05-21

pytorch-grad-cam — Advanced AI Explainability for computer vision. Support for CNNs, Vision Transformers, Classification, Object detection, Segmentation, Image similarity and more.

このライブラリは、コンピューター ビジョンのための高度なAI解釈と可視化ソリューションです。このライブラリは、CNN、ビジョン トランスフォーム、分類、物体検出、分割、画像類似度など、さまざまなコンピューター ビジョンの

深層学習Transformer分類検出セグメンテーション
用途
AIの解釈と可視化ソリューション
難易度
Easy
コスト
Low