MLinfo | 機械学習・AI論文まとめ

netdata — The fastest path to AI-powered full stack observability, even for lean teams.

netdataは、チームに関係なくAIパワーで全システム観察できる最速のパスを提供している。

機械学習教師あり学習画像

用途: 全システム観察
難易度: Easy
コスト: Medium

コンピュータビジョン物体検出分類検出セグメンテーション

ultralytics — Ultralytics YOLO26, YOLO11, YOLOv8 — object detection, instance segmentation, semantic segmentation, image classification, pose estimation, object tracking

ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。

用途: オブジェクト検出
難易度: Easy
コスト: Low

streamlit — Streamlit — A faster way to build and share data apps.

streamlitはStreamlitライブラリを使って、データアプリを作成・共有することができる。

機械学習教師あり学習画像

用途: データアプリ作成
難易度: Easy
コスト: Medium

gradio — Build and share delightful machine learning apps, all in Python. 🌟 Star to support our work!

Pythonでマシンラーニングアプリを作成・共有することができるライブラリです。

強化学習方策勾配 (PPO / A3C)画像

用途: マシンラーニングアプリ作成
難易度: Easy
コスト: Medium

photoprism — AI-Powered Photos App 🌈💎✨

photoprismはAIパワーで管理される写真管理アプリケーションで、写真の特徴や情報を自動的に検出することができる。

機械学習教師あり学習画像

用途: 写真管理
難易度: Easy
コスト: Medium

opencv — Open Source Computer Vision Library

このリポジトリでは、64MパラメータのGPTを完全にTrainingし、2時間以内に完成させる手法を提供します。

深層学習画像

用途: 大モデル 2時間で完全にTraining
難易度: Easy
コスト: High

コンピュータビジョン物体検出分類検出セグメンテーション

yolov5 — Ultralytics YOLOv5 in PyTorch for object detection, instance segmentation, classification, training, and export.

YOLOv5という物体検出アルゴリズムをPyTorchから他の言語に変換できるライブラリ。

用途: 物体検出
難易度: Easy
コスト: High

diffusers — 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.

.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。

生成AI拡散モデル生成画像テキスト

用途: 画像・動画・音声生成
難易度: Easy
コスト: High

netron — Visualizer for neural network, deep learning and machine learning models

神経ネットワークの可視化に利用できるツール。深層学習・機械学習モデルも可視化可能。

MLOpsモデルデプロイ画像

用途: 神経ネットワーク可視化
難易度: Easy
コスト: Medium

コンピュータビジョン物体検出分類セグメンテーション画像

label-studio — Label Studio is a multi-type data labeling and annotation tool with standardized output format

データラベル化と注釈化を行うためのツールです。

用途: データラベル化ツール
難易度: Easy
コスト: Low

Medical_Image_Analysis — Foundation models based medical image analysis

医学画像分析は、医療の診断や治療を支援するために画像に記載されたデータから情報を抽出する研究分野です。この研究では、foundation modelsを用い、医療画像分析のための新しいアプローチを提案しました。found

自然言語処理大規模言語モデル生成画像テキスト

用途: 医学画像分析
難易度: Easy
コスト: High

品質予測/異常検知コンピュータビジョンセグメンテーション分類検出画像

cvat — Computer Vision Annotation Tool (CVAT) is a leading platform for building high-quality visual datasets for vision AI. It offers open-source, cloud, and enterprise products, as well as labeling services, for image, video, and 3D annotation with AI-assisted labeling, quality assurance, team collaboration, analytics, and developer APIs.

CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。

用途: データのラベル付けと管理
難易度: Easy
コスト: High

コンピュータビジョンセグメンテーション分類画像動画

labelme — Image annotation with Python. Supports polygon, rectangle, circle, line, point, and AI-assisted annotation.

イメージを注釈するツール。ポリゴン、長方形、円、線、点などを注釈することができる。

用途: イメージ注釈
難易度: Easy
コスト: High

Meshroom — Node-based Visual Programming Toolbox

ノードベースのビジュアルプログラミングツールです。

コンピュータビジョン3D・点群画像テキスト3D

用途: ビジュアルプログラミングツール
難易度: Easy
コスト: High

深層学習Transformerセグメンテーション画像

segmentation_models.pytorch — Semantic segmentation models with 500+ pretrained convolutional and transformer-based backbones.

セマンティックシーケンス分割モデルのライブラリです。

用途: セマンティックシーケンス分割モデル
難易度: Easy
コスト: High

kornia — 🐍 Geometric Computer Vision Library for Spatial AI

このリポジトリでは、金融分野に適したLarge Language Modelsを提供しています。

コンピュータビジョン画像

用途: 金融用のLarge Language Models
難易度: Easy
コスト: High

rerun — Visualize, query, and stream to train on multimodal robotics data.

データをロギング・ストーリング・クエリして視覚化できるSDKです。

コンピュータビジョンマルチモーダル画像

用途: データロギングおよび視覚化
難易度: Easy
コスト: High

品質予測/異常検知機械学習教師あり学習分類検出画像

fiftyone — Refine high-quality datasets and visual AI models

FiftyOneは、データセットの精査とAIモデル可視化を支援するライブラリです。このライブラリは、データセットの品質を高め、AIモデルを可視化するのを支援するために使用できます。

用途: データセットの精査とAIモデル可視化
難易度: Easy
コスト: Low

深層学習Transformer画像テキストマルチモーダル

sglang — SGLang is a high-performance serving framework for large language models and multimodal models.

SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。

用途: 大規模言語モデルのサービングフレームワーク
難易度: Easy
コスト: High

Sana — SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。

深層学習Transformer生成画像テキスト

用途: 高解像度画像合成
難易度: Easy
コスト: High

qdrant — Qdrant - High-performance, massive-scale Vector Database and Vector Search Engine for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/

このリポジトリでは、データとAIアルゴリズムを製品化するためのプラットフォームであるTaipyを提供しています。

自然言語処理埋め込み・検索生成画像

用途: AIアプリケーションを製品化するためのプラットフォーム
難易度: Easy
コスト: Low

taipy — Turns Data and AI algorithms into production-ready web applications in no time.

このリポジトリでは、AIワークロードを管理するための自動化システムであるClearMLを提供しています。

MLOpsパイプライン構築画像

用途: AIワークロードを管理するための自動化システム
難易度: Easy
コスト: Medium

weaviate — Weaviate is an open-source vector database that stores both objects and vectors, allowing for the combination of vector search with structured filtering with the fault tolerance and scalability of a cloud-native database.

ベクトル検索と構造化されたフィルタリングを組み合わせたベクターデータベースです。

MLOps生成画像

用途: ベクターデータベース
難易度: Easy
コスト: Medium

aim — Aim 💫 — An easy-to-use & supercharged open-source experiment tracker.

skypilotは、AIワークロードを任意のAIインフラストラクチャで実行、管理、スケールさせることができるプラットフォームです。

MLOps実験管理画像

用途: AIワークフローの管理
難易度: Easy
コスト: Medium

LightX2V — Lightweight Image Video Action Generation Inference Framework

zenmlは、データパイプラインからエージェントまで、AIプラットフォームです。

深層学習軽量化・量子化生成画像動画

用途: AI推論を軽量化したインフラ
難易度: Easy
コスト: High

deepinv — DeepInverse: a PyTorch library for solving imaging inverse problems using deep learning

ピラミードライブラリを使ったイメージインバース問題の解決に使えるライブラリです。

生成AI拡散モデル画像自己教師

用途: イメージインバース問題の解決
難易度: Easy
コスト: High

表形式向き深層学習Transformer分類検出画像

presidio — An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。

用途: データのプライバシーを保護する
難易度: Easy
コスト: Low

remove-ai-watermarks — AI watermark remover. CLI and Python library to strip visible and invisible AI watermarks (Gemini / Nano Banana sparkle, SynthID) and provenance metadata (C2PA, EXIF, IPTC) from images.

音声認識、声活動検出、テキスト処理などを行う、基盤となる音声認識ツールキットを提供する。

自然言語処理大規模言語モデル生成画像

用途: 音声認識の基盤技術の提供
難易度: Easy
コスト: High

SimpleTuner — A general fine-tuning kit geared toward image/video/audio diffusion models.

画像やビデオやオーディオディフュージョンモデルのファインチューニングを行うための、汎用的なファインチューニングキット。

自然言語処理ファインチューニング画像音声動画

用途: ディフュージョンモデルのファインチューニング
難易度: Easy
コスト: High

best-of-ml-python — 🏆 A ranked list of awesome machine learning Python libraries. Updated weekly.

Pythonで使えるマシンラーニングライブラリを紹介している。

深層学習Transformer画像

用途: Python MLライブラリ
難易度: Easy
コスト: Medium

表形式向き自然言語処理大規模言語モデル画像テキスト表形式

unstructured — Convert documents to structured data effortlessly. Unstructured is open-source ETL solution for transforming complex documents into clean, structured formats for language models. Visit our website to learn more about our enterprise grade Platform product for production grade workflows, partitioning, enrichments, chunking and embedding.

ドキュメントを構造化するために使えるオープンソースのETLソリューション。

用途: ドキュメントの構造化
難易度: Easy
コスト: High

コンピュータビジョン物体検出分類検出セグメンテーション

githubGitHubあり2026-07-22

supervision — We write your reusable computer vision tools. 💜

supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。

用途: オリジナルコンピュータビジョンツール
難易度: Easy
コスト: High

githubGitHubあり2026-07-22

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2026-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2026/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画

用途: AIをCVPRに応用する
難易度: Easy
コスト: High

githubGitHubあり2026-07-21

awesome-datascience — :memo: An awesome Data Science repository to learn and apply for real world problems.

データサイエンスの学習には役立つリポジトリ。実世界の問題に応じた学習が可能。

深層学習画像

用途: データサイエンス学習
難易度: Easy
コスト: Medium

githubGitHubあり2026-07-16

pytorch-image-models — The largest collection of PyTorch image encoders / backbones. Including train, eval, inference, export scripts, and pretrained weights -- ResNet, ResNeXT, EfficientNet, NFNet, Vision Transformer (ViT), MobileNetV4, MobileNet-V3 & V2, RegNet, DPN, CSPNet, Swin Transformer, MaxViT, CoAtNet, ConvNeXt, and more

PyTorchで使用できる画像エンコーダとバックボーンの最大のコレクションです。トレーニング、評価、推論など様々なスクリプトや事前の重み付きデータが含まれます。

深層学習Transformer分類画像

用途: PyTorchで使用できる画像エンコーダとバックボーン
難易度: Easy
コスト: High

githubGitHubあり2026-07-14

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像

用途: 強化学習フレームワーク
難易度: Easy
コスト: High

githubGitHubあり2026-07-14

LakonLab — Official implementation of AsymFlow, pi-Flow, GMFlow

LakonLabは、AsymFlow、pi-Flow、GMFlowなどの生成型流体力学を実装するためのオープンソースプロジェクトです。

深層学習軽量化・量子化生成画像テキスト

用途: 生成型流体力学の実装
難易度: Easy
コスト: Medium

githubGitHubあり2026-07-13

UniPic — Open-source SOTA multi-image editing model

UniPicは、オープンソースの最先端の画像編集モデルの実装です。

コンピュータビジョンマルチモーダル生成画像

用途: 多画像編集モデルの実装
難易度: Easy
コスト: High

深層学習Transformer分類検出セグメンテーション

githubGitHubあり2026-07-10

pytorch-grad-cam — Advanced AI Explainability for computer vision. Support for CNNs, Vision Transformers, Classification, Object detection, Segmentation, Image similarity and more.

このライブラリは、コンピュータービジョンのための高度なAI解釈と可視化ソリューションです。このライブラリは、CNN、ビジョントランスフォーム、分類、物体検出、分割、画像類似度など、さまざまなコンピュータービジョンの

用途: AIの解釈と可視化ソリューション
難易度: Easy
コスト: Low

githubGitHubあり2026-07-07

VLM-R1 — Solve Visual Understanding with Reinforced VLMs

この研究では、画像理解を強化する強化されたビジョンホルシックスモデル (VLM-R1) が提案されます。この modelは、画像を理解しやすくするように設計されています。

自然言語処理大規模言語モデル画像マルチモーダル

用途: 画像理解の問題を解決
難易度: Easy
コスト: High

品質予測/異常検知コンピュータビジョン3D・点群生成画像3D

githubGitHubあり2026-07-06

Magic123 — [ICLR'24] Official PyTorch Implementation of Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

Magic123は、画像を1枚入力し、画像と3Dデータ双方の情報を利用して高質の3Dオブジェクトを生成することができる。

用途: 高質の3Dオブジェクト生成
難易度: Easy
コスト: High

githubGitHubあり2026-07-03

EEGUnity — An open source tool for large-scale EEG datasets processing

ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション

コンピュータビジョンマルチモーダル

用途: ビデオ diffusioin trasformerで長さのエキサポレーション
難易度: Easy
コスト: High

githubGitHubあり2026-07-02

langextract — A Python library for extracting structured information from unstructured text using LLMs with precise source grounding and interactive visualization.

LLMを使用して、自然言語処理における情報抽出を行うためのPythonライブラリです。

自然言語処理大規模言語モデル画像テキスト

用途: 自然言語処理情報抽出
難易度: Easy
コスト: High

githubGitHubあり2026-06-30

ComfyUI-LTXVideo — LTX-Video Support for ComfyUI

医療画像分析で、深層學習モデルが実装されている問題に対する解決策を提示します。治療を導くために、批判的結果に影響を与える変化について特に重点が置かれています。

生成AI拡散モデル生成画像テキスト

用途: 医療画像を分析し治療を導く
難易度: Easy
コスト: High

githubGitHubあり2026-06-28

LanPaint — High quality training free inpaint for every stable diffusion model. Supports ComfyUI

画像生成のためのHigh Quality Training Free Inpaintを提供します。このInpaintはStable Diffusionモデルに使用でき、ComfyUIもサポートしています。

品質予測/異常検知生成AI拡散モデル生成画像動画

用途: 画像生成
難易度: Easy
コスト: High

品質予測/異常検知深層学習軽量化・量子化生成画像テキスト

githubGitHubあり2026-06-25

ml-mdm — Train high-quality text-to-image diffusion models in a data & compute efficient manner

Train high-quality text-to-image diffusion models in a data & compute efficient manner

用途: 生成
難易度: Easy
コスト: High