MLinfo | 機械学習・AI論文まとめ

diffusers — 🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.

.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。

生成AI拡散モデル生成画像テキスト

用途: 画像・動画・音声生成
難易度: Easy
コスト: High

rig — ⚙️🦀 Build modular and scalable LLM Applications in Rust

Rustを使ってモジュラーLLMアプリケーションを構築することができるライブラリです。

用途: モジュラーLLMアプリケーション作成
難易度: Easy
コスト: High

Medical_Image_Analysis — Foundation models based medical image analysis

医学画像分析は、医療の診断や治療を支援するために画像に記載されたデータから情報を抽出する研究分野です。この研究では、foundation modelsを用い、医療画像分析のための新しいアプローチを提案しました。found

自然言語処理大規模言語モデル生成画像テキスト

用途: 医学画像分析
難易度: Easy
コスト: High

Sana — SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

SANAは、高解像度画像生成モデルSANAを紹介する本研究であり、低計算コストで優れた高解像度画像を生成できる。

深層学習Transformer生成画像テキスト

用途: 高解像度画像合成
難易度: Easy
コスト: High

qdrant — Qdrant - High-performance, massive-scale Vector Database and Vector Search Engine for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/

このリポジトリでは、データとAIアルゴリズムを製品化するためのプラットフォームであるTaipyを提供しています。

自然言語処理埋め込み・検索生成画像

用途: AIアプリケーションを製品化するためのプラットフォーム
難易度: Easy
コスト: Low

weaviate — Weaviate is an open-source vector database that stores both objects and vectors, allowing for the combination of vector search with structured filtering with the fault tolerance and scalability of a cloud-native database.

ベクトル検索と構造化されたフィルタリングを組み合わせたベクターデータベースです。

MLOps生成画像

用途: ベクターデータベース
難易度: Easy
コスト: Medium

metaflow — Build, Manage and Deploy AI/ML Systems

TensorZeroは、LLMゲートウェイ、オブザーバビリティ、評価、最適化、実験を統一したオープンソースのLLMOpsプラットフォームです。

用途: AI/MLシステムの構築、管理、展開ツール
難易度: Easy
コスト: High

kserve — Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

flyteは、高度に動的で堅牢なAIオーケストレーションプラットフォームであり、データ、モデル、コンピューティングを統合してAIワークフローを作成することができます。

用途: エクスペリメントトラッカーを簡単にする
難易度: Easy
コスト: High

openvino — OpenVINO™ is an open source toolkit for optimizing and deploying AI inference

オープンソースのAI推論最適化と展開用ツールキットです。

深層学習Transformer分類生成音声

用途: AI推論の最適化と展開
難易度: Easy
コスト: Low

Awesome-Video-Diffusion — A curated list of recent diffusion models for video generation, editing, and various other applications.

Awesome-Video-Diffusionは、Recent Diffusion Models for Video Generation, Editing, and Othersのリストを公開しています。

生成AI拡散モデル生成動画

用途: ビデオ生成や編集の問題を解決する
難易度: Easy
コスト: High

FastVideo — A unified inference and post-training framework for accelerated video generation.

FastVideoは、加速されたビデオ生成用の統合推論とポストトレーニングのフレームワークです。

深層学習軽量化・量子化生成動画

用途: ビデオ生成を加速する
難易度: Easy
コスト: High

LightX2V — Lightweight Image Video Action Generation Inference Framework

zenmlは、データパイプラインからエージェントまで、AIプラットフォームです。

深層学習軽量化・量子化生成画像動画

用途: AI推論を軽量化したインフラ
難易度: Easy
コスト: High

FastGen — NVIDIA FastGen: Fast Generation from Diffusion Models

この論文では、ディフュージョンモデルの高速化を目的としたNVIDIA FastGenについて説明しています。FastGenは、ディフュージョンモデルから高速に生成することが可能です。

深層学習軽量化・量子化生成

用途: ディフュージョンモデルの高速化
難易度: Easy
コスト: High

haystack — Open-source AI orchestration framework for building context-engineered, production-ready LLM applications. Design modular pipelines and agent workflows with explicit control over retrieval, routing, memory, and generation. Built for scalable agents, RAG, multimodal applications, semantic search, and conversational systems.

オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。

深層学習Transformer生成要約テキスト

用途: LLMアプリケーションの構築
難易度: Easy
コスト: High

RAG_Techniques — This repository showcases various advanced techniques for Retrieval-Augmented Generation (RAG) systems. Each technique has a detailed notebook tutorial.

医学画像に対する疾患検出モデルを開発し、臨床現場で早期検出と迅速な介入を容易にすることを目的としたフレームワークを提案します。

用途: 医学画像の疾患検出
難易度: Easy
コスト: High

nestia — NestJS Helper + AI Chatbot Development

NestJSベースのAIチャットボット開発ツールです。

用途: AIチャットボット作成
難易度: Easy
コスト: High

xtuner — A Next-Generation Training Engine Built for Ultra-Large MoE Models

xtunerは、超大規模MoEモデルを高速にトレーニングするためのトレーニングエンジンです。

自然言語処理大規模言語モデル生成マルチモーダル

用途: MoEモデルの高速トレーニングを提供する
難易度: Easy
コスト: High

remove-ai-watermarks — AI watermark remover. CLI and Python library to strip visible and invisible AI watermarks (Gemini / Nano Banana sparkle, SynthID) and provenance metadata (C2PA, EXIF, IPTC) from images.

音声認識、声活動検出、テキスト処理などを行う、基盤となる音声認識ツールキットを提供する。

自然言語処理大規模言語モデル生成画像

用途: 音声認識の基盤技術の提供
難易度: Easy
コスト: High

品質予測/異常検知深層学習軽量化・量子化生成テキスト動画

Causal-Forcing — [ICML 2026] Official codebase for "Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation" & Causal Forcing++

この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive

用途: 高品質のビデオ生成を実現する。
難易度: Easy
コスト: High

txtai — 💡 All-in-one AI framework for semantic search, LLM orchestration and language model workflows

LLMを利用するために、セマンティック検索やLLMのオーケストレーションなどを行えるフレームワーク。

深層学習Transformer生成テキスト

用途: セマンティック検索
難易度: Easy
コスト: High

picollm — On-device LLM Inference Powered by X-Bit Quantization

デバイス上のLLM推論をXビット量化を使用したもの。

深層学習軽量化・量子化生成

用途: ラジケイタクイズナイゼーション
難易度: Easy
コスト: High

Finance-LLMs — Comprehensive Compilation of Real-World LLM & AI Agent Use Cases in Financial Services

販売データを分析するために、機械学習モデルが使用されるリソースが提供されていました。

用途: 販売データを分析する
難易度: Easy
コスト: High

OpenWorldLib — Unified Codebase for Advanced World Models.

OpenWorldLibは、進化する世界モデルを提供する統一されたコードベースです。

コンピュータビジョン3D・点群生成動画3D

用途: 世界モデルを提供する
難易度: Easy
コスト: High

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2026-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2026/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画

用途: AIをCVPRに応用する
難易度: Easy
コスト: High

githubGitHubあり2026-07-21

agent-starter-pack — Ship AI Agents to Google Cloud in minutes, not months. Production-ready templates with built-in CI/CD, evaluation, and observability.

AIエージェントをGoogle Cloudに展開することが可能で、CI/CD、評価、観察など、プロダクションリードテンプレートが事前に用意されています。

用途: AIエージェントをGoogle Cloudに展開
難易度: Easy
コスト: High

githubGitHubあり2026-07-21

DNA-Diffusion — 🧬 Generative modeling of regulatory DNA sequences with diffusion probabilistic models 💨

人工DNAシーケンスを生成するモデルを提案し、DNAシーケンスを扱える機械学習的手法を開発することを目的としている。

生成AI拡散モデル生成

用途: DNAシーケンスの発生学習
難易度: Easy
コスト: High

githubGitHubあり2026-07-20

BentoML — The easiest way to serve AI apps and models - Build Model Inference APIs, Job queues, LLM apps, Multi-model pipelines, and more!

モデルをサービングするためのライブラリを紹介している。

自然言語処理大規模言語モデル生成マルチモーダル

用途: モデルのサービング
難易度: Easy
コスト: High

githubGitHubあり2026-07-20

Open-dLLM — Open diffusion language model for code generation — releasing pretraining, evaluation, inference, and checkpoints.

Open-dLLMはOpen diffusion language modelを公開しており、コード生成の前トレーニング、評価、推論、チェックポイントを公開しています。

自然言語処理大規模言語モデル生成テキスト

用途: コード生成の問題を解決する
難易度: Easy
コスト: High

自然言語処理大規模言語モデル生成テキストマルチモーダル

githubGitHubあり2026-07-17

generative-ai — Comprehensive resources on Generative AI, including a detailed roadmap, projects, use cases, interview preparation, and coding preparation.

ゼネレーティブAIに関連するリソースの一覧。

用途: ゼネレーティブAI
難易度: Easy
コスト: High

githubGitHubあり2026-07-17

Awesome-Model-Merging-Methods-Theories-Applications — Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities. ACM Computing Surveys, 2026.

LLMのマージに関してのマニュアルです。理論、方法、応用などについての概要が記載されています。

用途: LLMのマージ
難易度: Easy
コスト: High

githubGitHubあり2026-07-16

TurboDiffusion — TurboDiffusion: 100–200× Acceleration for Video Diffusion Models

画像認証システムにおける悪用された画像からの画像の認証方法を提示しました。

深層学習軽量化・量子化生成動画

用途: 画像認証システムの改良
難易度: Easy
コスト: High

githubGitHubあり2026-07-14

agents-towards-production — End-to-end, code-first tutorials for building production-grade GenAI agents. From prototype to enterprise deployment.

AIエージェントの開発と実装を行うためのエンドツーマンド、コードファーストのチュートリアル。

用途: AIエージェントの開発と実装
難易度: Easy
コスト: High

githubGitHubあり2026-07-14

LakonLab — Official implementation of AsymFlow, pi-Flow, GMFlow

LakonLabは、AsymFlow、pi-Flow、GMFlowなどの生成型流体力学を実装するためのオープンソースプロジェクトです。

深層学習軽量化・量子化生成画像テキスト

用途: 生成型流体力学の実装
難易度: Easy
コスト: Medium

githubGitHubあり2026-07-14

memvid — Memory layer for AI Agents. Replace complex RAG pipelines with a serverless, single-file memory layer. Give your agents instant retrieval and long-term memory.

MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。

自然言語処理大規模言語モデル生成テキスト動画

用途: AIエージェントの記憶を管理する
難易度: Easy
コスト: High

githubGitHubあり2026-07-13

Irodori-TTS — A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control

Emotion-driven Style Controlを使用してテキストから声の変換が実行され、感情のあるテキストをエモタイザブルな声に変換することが可能になります。

生成AI拡散モデル生成テキスト音声

用途: テキスト-to-声の変換
難易度: Easy
コスト: High

githubGitHubあり2026-07-13

UniPic — Open-source SOTA multi-image editing model

UniPicは、オープンソースの最先端の画像編集モデルの実装です。

コンピュータビジョンマルチモーダル生成画像

用途: 多画像編集モデルの実装
難易度: Easy
コスト: High

githubGitHubあり2026-07-11

LLMs-from-scratch — Implement a ChatGPT-like LLM in PyTorch from scratch, step by step

この研究では、COVID-19臨床パスウェイズの予測監視を支援するために、パイプラインを構築しました。このパイプラインには、データリフティング、時間的再構成、イベントログの構築、プリフィックスベースの表現、予測モデルの整

深層学習Transformer生成

用途: 医療機器へのアクセスを予測する
難易度: Easy
コスト: High

githubGitHubあり2026-07-09

Awesome-Item-ID-Gen-RecSys — Updating curated list of research advancements on item identification and item tokenization in generative recommender systems. The survey is titled "A Survey of Item Identifiers in Generative Recommendation: Construction, Alignment, and Generation"

本研究では、生成推奨システムにおけるアイテムIDの構築、調整、生成の手法について、アイテムIDの構築方法を分析しています。

用途: 生成推奨システムのアイテムIDの問題解決
難易度: Easy
コスト: High

githubGitHubあり2026-07-08

VoxCPM — VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

マルチラギングスピーチ生成やクリエイティブボイスデザイン、ルートライフクライミングなど、テクスチャファリーTTSの最新技術を実現するためのフレームワークです。

生成AI音声・音楽生成生成テキスト音声

用途: マルチラギングスピーチ生成
難易度: Easy
コスト: Medium

githubGitHubあり2026-07-07

DATAGEN — DATAGEN: AI-driven multi-agent research assistant automating hypothesis generation, data analysis, and report writing.

AIドライブのマルチエージェント研究アシスタント。仮説の生成、データ分析、およびレポートの生成を自動化する。

用途: AI研究アシスタント
難易度: Easy
コスト: High

品質予測/異常検知コンピュータビジョン3D・点群生成画像3D

githubGitHubあり2026-07-06

Magic123 — [ICLR'24] Official PyTorch Implementation of Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

Magic123は、画像を1枚入力し、画像と3Dデータ双方の情報を利用して高質の3Dオブジェクトを生成することができる。

用途: 高質の3Dオブジェクト生成
難易度: Easy
コスト: High

githubGitHubあり2026-07-05

llm-app — Ready-to-run cloud templates for RAG, AI pipelines, and enterprise search with live data. 🐳Docker-friendly.⚡Always in sync with Sharepoint, Google Drive, S3, Kafka, PostgreSQL, real-time data APIs, and more.

この論文では、RAG、AIパイプライン、企業検索を含むクラウドテンプレートを提供するアプリケーション「llm-app」を紹介します。 llm-app は Docker で動作し、Sharepoint、Google Dr

用途: AIパイプラインを構築する
難易度: Easy
コスト: High

githubGitHubあり2026-07-02

learning — A log of things I'm learning

学習中のアイデアや知識を整理するための日記。

用途: 知識の学習記録
難易度: Easy
コスト: High

githubGitHubあり2026-07-01

MeanFlow — PyTorch implementation of MeanFlow & iMF (one-step generative modeling).

Operad理論を用いて、モデルが組み合わせ式に対する複合的な回答の合致性を検証する手法が提案された。

生成AI拡散モデル生成

用途: 対象モデルが不正を検知する
難易度: Easy
コスト: High

githubGitHubあり2026-06-30

ComfyUI-LTXVideo — LTX-Video Support for ComfyUI

医療画像分析で、深層學習モデルが実装されている問題に対する解決策を提示します。治療を導くために、批判的結果に影響を与える変化について特に重点が置かれています。

生成AI拡散モデル生成画像テキスト

用途: 医療画像を分析し治療を導く
難易度: Easy
コスト: High

githubGitHubあり2026-06-29

HunyuanVideo — HunyuanVideo: A Systematic Framework For Large Video Generation Model

画面の生成モデルであるHunyuanVideoを開発した。HunyuanVideoは、複雑なシーケンスを生成する能力を持つ。

深層学習Transformer生成動画

用途: 画面の生成モデルへの応用
難易度: Easy
コスト: High

githubGitHubあり2026-06-28

awesome-japanese-llm — 日本語LLMまとめ - Overview of Japanese LLMs

分析システムの性能を向上するための学習モデル開発を行う。

自然言語処理大規模言語モデル生成マルチモーダル

用途: 分析システムの性能を向上するための学習モデル開発
難易度: Easy
コスト: High

githubGitHubあり2026-06-28

LanPaint — High quality training free inpaint for every stable diffusion model. Supports ComfyUI

画像生成のためのHigh Quality Training Free Inpaintを提供します。このInpaintはStable Diffusionモデルに使用でき、ComfyUIもサポートしています。

品質予測/異常検知生成AI拡散モデル生成画像動画

用途: 画像生成
難易度: Easy
コスト: High

githubGitHubあり2026-06-25

ai-engineering-from-scratch — Learn it. Build it. Ship it for others.

このリポジトリでは、AIエンジニアリングのためのオープンソースプラットフォームであるMLflowを提供しています。

深層学習Transformer生成

用途: AIエンジニアリングのためのプラットフォーム
難易度: Easy
コスト: Medium

品質予測/異常検知深層学習軽量化・量子化生成画像テキスト

githubGitHubあり2026-06-25

ml-mdm — Train high-quality text-to-image diffusion models in a data & compute efficient manner

Train high-quality text-to-image diffusion models in a data & compute efficient manner

用途: 生成
難易度: Easy
コスト: High