image」の検索結果

326
githubGitHubあり2026-06-09

cvat — Computer Vision Annotation Tool (CVAT) is a leading platform for building high-quality visual datasets for vision AI. It offers open-source, cloud, and enterprise products, as well as labeling services, for image, video, and 3D annotation with AI-assisted labeling, quality assurance, team collaboration, analytics, and developer APIs.

CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。

品質予測/異常検知コンピュータビジョンセグメンテーション分類検出画像
用途
データのラベル付けと管理
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

sglang — SGLang is a high-performance serving framework for large language models and multimodal models.

SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。

深層学習Transformer画像テキストマルチモーダル
用途
大規模言語モデルのサービングフレームワーク
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像
用途
強化学習フレームワーク
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

qdrant — Qdrant - High-performance, massive-scale Vector Database and Vector Search Engine for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/

このリポジトリでは、データとAIアルゴリズムを製品化するためのプラットフォームであるTaipyを提供しています。

自然言語処理埋め込み・検索生成画像
用途
AIアプリケーションを製品化するためのプラットフォーム
難易度
Easy
コスト
Low
githubGitHubあり2026-06-09

unstructured — Convert documents to structured data effortlessly. Unstructured is open-source ETL solution for transforming complex documents into clean, structured formats for language models. Visit our website to learn more about our enterprise grade Platform product for production grade workflows, partitioning, enrichments, chunking and embedding.

ドキュメントを構造化するために使えるオープンソースのETLソリューション。

表形式向き自然言語処理大規模言語モデル画像テキスト表形式
用途
ドキュメントの構造化
難易度
Easy
コスト
High
arxivPaper only2026-06-08

Echo-Memory: A Controlled Study of Memory in Action World Models

この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。

品質予測/異常検知コンピュータビジョンセグメンテーション生成画像テキスト
用途
エピソード記憶
難易度
Hard
コスト
High
arxivPaper only2026-06-08

What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks

大規模言語モデル(LLM)を運用するコンテンツモデレーションシステムは、有害なオンラインコンテンツを防止するために重要な役割を果たします。しかし、これらのシステムの主な目標は単にトークナイズされたテキストを操作することに

自然言語処理大規模言語モデル分類検出画像
用途
文書の分類
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Orange Lab: Lowering Barriers to Data Mining through Embedded Interactive Workflows

この論文では、data mining におけるビジュアルプログラミングフレームワーク、Orange Lab を提唱しました。これにより、Webベースのデータ分析環境を提供し、ユーザーフェイシングの分析ツールとしてデータ分

MI向き自然言語処理ファインチューニング画像テキスト
用途
データ分析フロー
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset

LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。

品質予測/異常検知コンピュータビジョン動画認識検出画像テキスト
用途
医学論文執筆のサポート
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Vision Language Model Helps Private Information De-Identification in Vision Data

ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す

コンピュータビジョン物体検出分類検出画像
用途
ビジョン言語モデルを使用したビジュアルデータのプライバシー保護
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation Challenges

大規模言語モデルのプライバシーリスクについては、既に研究が行われていたが、マルチモデル大規模言語モデル(MLLM)のプライバシーリスクについては、まだ十分に調査されていなかった。MLLMでは、テキストだけでなく画像データ

自然言語処理大規模言語モデル画像テキスト
用途
マルチモデル大規模言語モデルにおけるプライバシーリスク
難易度
Hard
コスト
High
arxivPaper only2026-06-08

SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning

Vision-and-Languageナビゲーションエージェントは、言語指示に従って環境を探索できる。Zero-shot Vision-and-Languageナビゲーションエージェントには、未知の環境における安全性と信

深層学習軽量化・量子化検出画像3D
用途
バイオインフォマティクスのための零-shot Vision-and-Languageナビゲーションエージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連

コンピュータビジョンマルチモーダルQA画像テキスト
用途
統合医療医系のためのLLMベースの医療エージェント
難易度
Hard
コスト
High
githubGitHubあり2026-06-07

presidio — An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。

表形式向き深層学習Transformer分類検出画像
用途
データのプライバシーを保護する
難易度
Easy
コスト
Low
githubGitHubあり2026-06-06

EEGUnity — An open source tool for large-scale EEG datasets processing

ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション

コンピュータビジョンマルチモーダル
用途
ビデオ diffusioin trasformerで長さのエキサポレーション
難易度
Easy
コスト
High
githubGitHubあり2026-06-06

DiT-Extrapolation — Official implementation for "RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers" (ICML 2025) , UltraViCo (ICLR 2026) and UltraImage

分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に

深層学習Transformer生成画像動画
用途
多クラス分類タスク
難易度
Easy
コスト
High
arxivGitHubあり2026-06-05

RhinoVLA Technical Report

この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV

深層学習軽量化・量子化画像テキストマルチモーダル
用途
VLAモデルをedgeハードウェアにデプロイするための手法
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Does Appearance Help? A Systematic Study of Image-Based Re-Identification in Online 3D Multi-Pedestrian Tracking

3D Multi-Object Tracking (MOT)では、人の動きを検出し続けるために、3D点群データから3D人体の姿勢姿勢を推測する必要があり、主に幾何学情報に依存しているが、これは状況によっては人を分別するの

深層学習Transformer検出画像テキスト
用途
3D人間の追跡システムの外観の有用性
難易度
Hard
コスト
High
arxivPaper only2026-06-05

QuadVerse: An Integrated Framework Aligning Visual-Physical Reality for Quadruped Simulation

この論文では、四足ロボットのシマイルのためのQuadVerseフレームワークを提案した。QuadVerseは、視覚的、物理的、動的なギャップを考慮したシマイルを用い、四足ロボットの実験環境とシマイルを統合した。

品質予測/異常検知自然言語処理RAG画像動画3D
用途
四足ロボットのシマイル
難易度
Hard
コスト
High
arxivPaper only2026-06-04

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

このリポジトリでは、画像認識モデルにアクション生成能力を付与することを目指したモデルを提案します。このモデルは、画像認識のための事前訓練モデルを用いて、複雑なアクションを生成することができます。

深層学習Transformer検出生成予測
用途
画像認識とアクションの生成
難易度
Hard
コスト
High
arxivPaper only2026-06-03

Identifying Gems from Roman RAPIDly

この研究では、将来の天文台 Roman が取得するデータに対して、変換検出と変換エラー検出の自動パイプラインを提案している。変換検出は、特に天文台 Roman のデータでは重要な機能であり、天文現象を検出するために迅速な

機械学習教師あり学習分類検出画像
用途
有望な天体に自動エラー検出と変換検出機能
難易度
Hard
コスト
High
githubGitHubあり2026-06-03

pytorch-image-models — The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (ViT), MobileNetV4, MobileNet-V3 & V2, RegNet, DPN, CSPNet, Swin Transformer, MaxViT, CoAtNet, ConvNeXt, and more

PyTorchで使用できる画像エンコーダとバックボーンの最大のコレクションです。トレーニング、評価、推論など様々なスクリプトや事前の重み付きデータが含まれます。

深層学習Transformer分類画像
用途
PyTorchで使用できる画像エンコーダとバックボーン
難易度
Easy
コスト
High
githubGitHubあり2026-06-02

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画
用途
AIをCVPRに応用する
難易度
Easy
コスト
High
githubGitHubあり2026-05-24

custom-diffusion — Custom Diffusion: Multi-Concept Customization of Text-to-Image Diffusion (CVPR 2023)

CVPR 2023で発表されたCustom Diffusionは、テキストから画像を生成するプロセスをカスタマイズできるDiffusionモデルです。テキストからイメージを生成する際の要件を設定できるので、画像生成の柔軟

自然言語処理ファインチューニング生成画像テキスト
用途
画像生成のカスタマイズ
難易度
Easy
コスト
High
githubGitHubあり2026-05-21

pytorch-grad-cam — Advanced AI Explainability for computer vision. Support for CNNs, Vision Transformers, Classification, Object detection, Segmentation, Image similarity and more.

このライブラリは、コンピューター ビジョンのための高度なAI解釈と可視化ソリューションです。このライブラリは、CNN、ビジョン トランスフォーム、分類、物体検出、分割、画像類似度など、さまざまなコンピューター ビジョンの

深層学習Transformer分類検出セグメンテーション
用途
AIの解釈と可視化ソリューション
難易度
Easy
コスト
Low