188 articles

Category

コンピュータビジョン

画像分類、検出、セグメンテーション、動画認識など、視覚AIの実装と評価に関係する技術群です。

物体検出セグメンテーション画像分類3D・点群動画認識マルチモーダル

人気記事

新着記事

未読 188
githubGitHubあり2026-06-09

cvat — Computer Vision Annotation Tool (CVAT) is a leading platform for building high-quality visual datasets for vision AI. It offers open-source, cloud, and enterprise products, as well as labeling services, for image, video, and 3D annotation with AI-assisted labeling, quality assurance, team collaboration, analytics, and developer APIs.

CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。

品質予測/異常検知コンピュータビジョンセグメンテーション分類検出画像
用途
データのラベル付けと管理
難易度
Easy
コスト
High
arxivPaper only2026-06-08

Echo-Memory: A Controlled Study of Memory in Action World Models

この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。

品質予測/異常検知コンピュータビジョンセグメンテーション生成画像テキスト
用途
エピソード記憶
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Disentanglement with Holographic Reduced Representations

画像分割を目的としたDeep learningモデルを提案した論文です。Deep learningモデルが画像を構成するオブジェクトに適切に分割できるようにするために、画像を分割したときの画像の特徴量を用いて学習します。

品質予測/異常検知コンピュータビジョンセグメンテーション生成教師あり教師なし
用途
画像分割
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

BSTabDiff: Block-Subunit Diffusion Priors for High-Dimensional Tabular Data Generation

高次元表形式データでは、数値サンプル(n)が特徴数(m)を上回ることが多いです。つまりこれらのドメインでは、$\mathbb{R}^m$ で直接密度関数を表現することは非実際である。私たちは、BSTabDiff:ブロック

表形式向きコンピュータビジョンセグメンテーション生成表形式
用途
高次元表形式データの生成
難易度
Hard
コスト
High
arxivPaper only2026-06-08

ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset

LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。

品質予測/異常検知コンピュータビジョン動画認識検出画像テキスト
用途
医学論文執筆のサポート
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Vision Language Model Helps Private Information De-Identification in Vision Data

ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す

コンピュータビジョン物体検出分類検出画像
用途
ビジョン言語モデルを使用したビジュアルデータのプライバシー保護
難易度
Hard
コスト
High
arxivPaper only2026-06-08

The Token Not Taken: Sampling, State, and the Variability of AI Agent Outputs

Agentic AIシステムの不確実性が、同じ要求から異なる計画、ツールの呼び出しなどが生成されることを示唆している。このようにしてシステムの信頼性を確保するには、AIエージェントのパラメータを確立することが重要となる。

コンピュータビジョンセグメンテーション生成テキスト
用途
AIエージェントのパラメータの確立に寄与する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連

コンピュータビジョンマルチモーダルQA画像テキスト
用途
統合医療医系のためのLLMベースの医療エージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following

この研究では、指示のフォローにおける思考の役割を評価します。この研究では、指示のフォローにおける思考の役割がどれだけの影響を与えるかを調べ、指示のフォローを改良

コンピュータビジョンセグメンテーション
用途
指示のフォローにおける思考の役割
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

Interpretable Crisis Behavior Analysis Using Mobility and Social Media Data

人間は危機時に移動パターンやメディアの投稿のパターンが変化し、分析が難しいようになった。この研究では、運動データやメディアデータの統合を用いて危機時の行動パターンを分析し、危機の状況における行動を予測した。

説明可能品質予測/異常検知コンピュータビジョンセグメンテーションマルチモーダル
用途
クライシス時の行動分析
難易度
Hard
コスト
High
githubGitHubあり2026-06-08

ml-agents — The Unity Machine Learning Agents Toolkit (ML-Agents) is an open-source project that enables games and simulations to serve as environments for training intelligent agents using deep reinforcement learning and imitation learning.

Unityを使用してマシンラーニングエージェントを訓練して訓練できるツールです。

コンピュータビジョン3D・点群3D強化学習
用途
Unityでマシンラーニングエージェント
難易度
Easy
コスト
High
githubGitHubあり2026-06-06

EEGUnity — An open source tool for large-scale EEG datasets processing

ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション

コンピュータビジョンマルチモーダル
用途
ビデオ diffusioin trasformerで長さのエキサポレーション
難易度
Easy
コスト
High
arxivPaper only2026-06-05

Rapid co-design of Buoyancy-assisted robots for Challenging Locomotion using Gaussian Evolutionary Specialists

この論文では、水上ロボットの設計の高速化のための新しい方法を提案した。Gaussian Evolutionary Specialists(GES)を用いた設計システムを用い、ロボットの形状と制御を同時に最適化することがで

コンピュータビジョンセグメンテーション強化学習
用途
水上ロボットの設計の高速化
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Dash2Sim: Closed-Loop Driving Simulation from in-the-wild Dashcam Videos

この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ

センサ/時系列品質予測/異常検知コンピュータビジョン3D・点群生成テキスト動画
用途
ドライビングシミュレーションのためのフレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Beyond Waypoints: A Trajectory-Centric Waypointing Paradigm for Vision-Language Navigation

この研究では、自然言語指示を実行するためにもっと実際的なエンベロイメントにおいて、視覚言語航行 (VLN) の問題に対処します。従来の 3 つのステージのアプローチは、目的地に到達するのを困難な場所や、計画と制御間の矛盾

コンピュータビジョンマルチモーダル生成
用途
自動車のトラクタシー
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Causal Atlases from Entropic Inference: Bayesian Networks beyond Optimal DAGs

Deep Learningモデルのパラメータの最適化には、テスト時パフォーマンスを最適化することが重要なステップで、しかし、従来のアルゴリズムでは、テスト時パフォーマンスを最適化することは困難である。Double Pre

コンピュータビジョンセグメンテーション
用途
パラメータの最適化
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Function-Space Priors for Bayesian Neural ODEs with Application to Vessel Trajectory Prediction

自動識別装置(AIS)データから船舶の軌跡を予測するためのオードインアリティー方程式(ODE)にベイズ推論を用いたモデルを開発しました。このモデルは、軌跡の不確実性も同様に予測されるため、安心して判断・意思決定が可能にな

少数データ向きコンピュータビジョンセグメンテーション
用途
船舶の軌跡予測
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

DAS-PINNs for high-dimensional partial differential equations: extending deep adaptive sampling to spacetime domains

時計関係の高次元偏微分方程式の解には、空間上では局所化し、動的にも変化する解を見つけなければならないが、これは、物理的に導かれたニューラルネットワーク(PINNs)を用いることで解くことができる。ただし、PINNsの単純

コンピュータビジョンセグメンテーション
用途
物理的に導かれたニューラルネットワークを用いてパラメトリック偏微分方程式を解く
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Discrete Causal Representations from Heterogeneous Domains: A Bayesian Approach with Social Survey Applications

この研究では、複数のドメインの複雑なデータを分析するために、Bayesian モデルを使用して因果関係を分析するツールを開発します。主に社会調査に使用できるツールです。

説明可能コンピュータビジョンセグメンテーション生成埋め込みマルチモーダル
用途
複数のドメインの因果関係を分析するツールを開発
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Diffusion Models Observe Only Gradients: A Geometric Perspective on Score Matching Errors

本論文では、ディフュージョンモデルの解釈方法を提唱します。この方法は、ディフュージョンモデルによる標的分布の解釈を可能にすることを目的としており、モデルが標的分布に近づく速度を正確に評価し、解釈可能な結果を得ることができ

品質予測/異常検知コンピュータビジョンセグメンテーション
用途
ディフュージョンモデルの正確性と解釈
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Waypoints Matter: A Systematic Study for Sampling-Based Trajectory Planning

この研究では、フェスタースター自動運転用の軌跡計画を改善するための新しい方法を提案します。 Waypoints Matter は、ロボットが目標地に向かって進むための最適なルートを決定します。

品質予測/異常検知コンピュータビジョンセグメンテーション
用途
フェスタースター自動運転用の軌跡計画
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

Towards a Data Flywheel for Embodied Intelligence in Logistics

Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ

コンピュータビジョンマルチモーダル異常検知テキスト動画
用途
ロボットの行動予測に適した空間を構築
難易度
Hard
コスト
High
arxivPaper only2026-06-03

TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness

本論文では、欠損値がある表格型データの欠損補完に関して取り組み、欠損値がないセルと同様に動作するSkipパターン検出と順序性意識のあるdiffusionベースの欠損補完アルゴリズムを提案しました。

表形式向きコンピュータビジョンセグメンテーション検出テキスト表形式
用途
表格型データの欠損補完
難易度
Hard
コスト
High
arxivPaper only2026-06-02

Privacy-Robust Incrementality Measurement for Advertising Systems under Signal Loss

広告プラットフォームはランダム化されたLIFTテストを使用してインクレメントを評価しますが、これがプライバシを保障するためのレポートシステムを損なう可能性があります。プライバシーを保護しながら広告のインクレメント測定を可

コンピュータビジョンセグメンテーション
用途
ランダム化されたLIFTテストを用いた広告のインクレメントの評価問題解決
難易度
Hard
コスト
Medium
githubGitHubあり2026-06-02

Awesome-CVPR2026-CVPR2025-ICCV2025-CVPR2024-ECCV2024-AIGC — A Collection of Papers and Codes for CVPR2026/CVPR2025/ICCV2025/CVPR2024/ECCV2024 AIGC

CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。

コンピュータビジョン3D・点群生成画像動画
用途
AIをCVPRに応用する
難易度
Easy
コスト
High
githubGitHubあり2026-05-28

openFrameworks — openFrameworks is a community-developed cross platform toolkit for creative coding in C++.

OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。

コンピュータビジョン音声動画
用途
クリエイティブコーディングのためのクロスプラットフォームツールキット
難易度
Easy
コスト
High
arxivPaper only2026-05-21

Temporal Coding as a Substrate for Sensorimotor Object Inference: A Spiking Reinterpretation of Thousand Brains Architecture

この研究では、時間空間オブジェクト認識のためのお気に入りのサブストラットを開発するため、Spiking Reinterpretation of Thousand Brains Theoryという方法を提案しました。これは

センサ/時系列コンピュータビジョン動画認識分類
用途
時間空間オブジェクト認識のためのお気に入りのサブストラットの開発
難易度
Hard
コスト
High
arxivPaper only2026-05-21

Do Not Trust The Auctioneer: Learning to Bid in Feedback-Manipulated Auctions

意図的なプレーヤーに反応するビジネス戦略を開発する方法が提案される。意図的なプレーヤーは、価格を高く抑えるためにアーティフィシャルビジネスを利用する。この方法により、ビジネスが意図的なプレーヤーに反応するビジネス戦略を開

コンピュータビジョンセグメンテーション
用途
意図的なプレーヤーに反応するビジネス戦略を開発する
難易度
Hard
コスト
Medium
arxivPaper only2026-05-20

How to Build Marcus's Algebraic Mind: Algebro-Deterministic Substrate over Galois Fields

この研究では、GaryマルクスのAlgebraicMindというアイデアに基づいて、計算モジュールと表現言語の間の橋渡しとして代数的認識を構築するための提案を紹介します。このモジュールでは、registerとtreele

コンピュータビジョンセグメンテーション
用途
辺端的な思考を可能とし、変数と階層化された構造化された表現の操作を実現するために、代数的認識を導入する
難易度
Hard
コスト
Medium
arxivPaper only2026-05-20

Convergence Analysis of Evolution Strategies for Mixed-Integer Optimization

この研究では、混合整数最適化の進化戦略に基づくオブジェクト関数の近似精度を確保するためのアプローチを示します。従来の進化戦略では、選択された座標の整数変数の標準偏差に下限を設けて、整数変数の収束を防ぐことが一般的です。こ

コンピュータビジョンセグメンテーション
用途
混合整数最適化問題の解法として、進化戦略(ES)に基づくオブジェクト関数の近似精度を確保する
難易度
Hard
コスト
Medium
arxivPaper only2026-05-19

Smooth Partial Lotteries for Stable Randomized Selection

部門間の競争では、評価に基づいて候補者を選択する必要があることが多い。しかし、これまでのランダムな選択メカニズムは、候補の中で微妙な差異のあるデータの不均衡を考慮していなかった。これにより、安定性が低くなる。そのため、今

品質予測/異常検知コンピュータビジョンマルチモーダル
用途
スマートなランダムな選択を促す方法を実現する
難易度
Hard
コスト
High
arxivPaper only2026-05-13

Nonsmooth Set-Gradient Ascent to the Pareto Front via Layered Hypervolume and Magnitude Indicators

パレートフロントに近づくための非-smooth な集団を使用する方法を提案し、この方法が効果的なパレートフロントの近似を実現することを実験結果により示した。

コンピュータビジョンセグメンテーション
用途
パレートフロントに近づくための非-smooth な集団を使用する方法を提案する
難易度
Hard
コスト
Medium