ultralytics — Ultralytics YOLO 🚀
ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。
Category
画像分類、検出、セグメンテーション、動画認識など、視覚AIの実装と評価に関係する技術群です。
ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。
YOLOv5という物体検出アルゴリズムをPyTorchから他の言語に変換できるライブラリ。
supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。
YOLOv5という物体検出アルゴリズムをPyTorchから他の言語に変換できるライブラリ。
supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。
YOLOv5という物体検出アルゴリズムをPyTorchから他の言語に変換できるライブラリ。
supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
データラベル化と注釈化を行うためのツールです。
コンピュータビジョンのデータセット、変換、モデルのライブラリ。
CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。
イメージを注釈するツール。ポリゴン、長方形、円、線、点などを注釈することができる。
CARLAは、オープンソースのシミュレータで、主に自動運転研究のために使われます。このシミュレータを使うことで、車両などのロボットをシミュレートし、様々なシナリオを実行できます。
ノードベースのビジュアルプログラミングツールです。
このライブラリは、3次元幾何学とモーションの解析のためのオープンソースライブラリです。このライブラリは、複数の視点からの画像を扱い、構造計算とマルチビューステレオの解析をサポートしています。
このリポジトリでは、金融分野に適したLarge Language Modelsを提供しています。
データをロギング・ストーリング・クエリして視覚化できるSDKです。
OpenWorldLibは、進化する世界モデルを提供する統一されたコードベースです。
stanzaは、さまざまな言語を処理するための言語処理用ライブラリです。
この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。
画像分割を目的としたDeep learningモデルを提案した論文です。Deep learningモデルが画像を構成するオブジェクトに適切に分割できるようにするために、画像を分割したときの画像の特徴量を用いて学習します。
Learned representations across models and modalities often exhibit striking structural similarities, suggestin
Foundation models (FMs) are increasingly used as backbones for downstream tasks across language, vision, time-
安全な強化学習のためのデータの削除を提案。データ ポイズニング攻撃からデータを保護するために、データを削除する方法を提案した。
Retrieval algorithms are used to estimate atmospheric concentrations of greenhouse gases (GHGs), such as carbo
方程式生成は、数値データから数学的方程式を生成することを目的としたものです。方程式生成を実現するためには、記号的回帰アルゴリズム(Symbolic Regression、SR)が使用されます。SRの実行のパフォーマンスは
高次元表形式データでは、数値サンプル(n)が特徴数(m)を上回ることが多いです。つまりこれらのドメインでは、$\mathbb{R}^m$ で直接密度関数を表現することは非実際である。私たちは、BSTabDiff:ブロック
これは、不確実性やリスクを減らすために、$\rho$-NPTS (Nonparametric Thompson Sampling) というアレイフリーの非パラメトリックベースのThompson Samplingで、リスク
この論文では、VideoQA が過度に信憑性の
Video retrieval at scale is central to data curation and safety validation in autonomous driving, where users
Many stages of the robotic lifecycle, from morphology synthesis to operation, rely fundamentally on the reacha
ワールドアクションモデルを高速化するために、情報のキャッシュと伝達を提案します。
Synthetic healthcare data are widely proposed as privacy-preserving substitutes for real patient data, yet the
この論文では、AI エヴァルレーション結果をより効果的に解釈するために、新しいフレームワークを提案する。
Output space pattern sampling is a powerful alternative to exhaustive pattern mining for exploring large patte
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
マテリアルの非破壊検査を目的としたContext-Aware Deep Learningが提案され、エアロックの欠陥を検出する。
ボディポーズ認識と行動解釈を目的としたReal-time body pose non-verbal communicationが提案され、人間の動作を認識して行動を解釈する。
ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す
Agentic AIシステムの不確実性が、同じ要求から異なる計画、ツールの呼び出しなどが生成されることを示唆している。このようにしてシステムの信頼性を確保するには、AIエージェントのパラメータを確立することが重要となる。
連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連
この研究では、CMA-ESアルゴリズムの停止条件を評価します。この研究では、CMA-ESアルゴリズムの停止条件が機能するかどうかを調べ、アルゴリズムを改良するための情報を提供します。
この研究では、形式言語の学習性を評価するための方法を開発します。この方法は、形式言語の学習性がどれだけのデータを必要とするかを評価することができます。
この研究では、指示のフォローにおける思考の役割を評価します。この研究では、指示のフォローにおける思考の役割がどれだけの影響を与えるかを調べ、指示のフォローを改良
人間は危機時に移動パターンやメディアの投稿のパターンが変化し、分析が難しいようになった。この研究では、運動データやメディアデータの統合を用いて危機時の行動パターンを分析し、危機の状況における行動を予測した。
危機管理では、コミュニケーションと地理
Reasoning Vision-Language Models (VLMs) achieve strong performance on complex multimodal tasks, but reliable r
Temporal modeling is essential for robotic manipulation, as effective control requires both memory of past int
End-to-end co-optimization of optical front-ends (e.g. metasurfaces) and neural network back-ends has been wid
The state-of-the-art generative models, such as CycleGAN, Pix2Pix, and diffusion models have demonstrated rema
Diffusion-based generative models have achieved remarkable success in real-world image super-resolution (SR).
Video world models have made rapid progress in generating controllable visual experiences, but most of them st
Modern object detectors achieve strong performance on standard benchmarks, yet their robustness to contextual
The vascular network in the human body is characterized by blood vessels exhibiting drastic structural variati
Synthetic aperture radar (SAR)-assisted optical cloud removal aims to recover surface information obscured by
Strabismus is a common ocular disorder that requires fine-grained subtype diagnosis for individualized treatme
With the growing demand for realistic virtual humans, parametric body models have become a cornerstone of mode
Video semantic segmentation for low-altitude UAVs requires temporal consistency, yet dense optical flow introd
Autoregressive (AR) models have demonstrated strong potential in visual generation, offering superior performa
Unmanned Aerial Vehicle (UAV) multispectral point clouds (MPC) provide high-dimensional spatial-spectral data
Vision-Language-Action models face significant challenges in real-world deployment due to the entanglement of
Human hand-object interactions encode functional intent, but direct transfer to robotic hands often fails unde
Autonomous mobile robots operating in tight environments require motion planning frameworks that account for t
The Robot Operating System~2 (ROS 2) is a widely used middleware for robotic systems, characterized by a publi
Unityを使用してマシンラーニングエージェントを訓練して訓練できるツールです。
We study a capability the dominant paradigm in synthetic tabular data does not provide: exact satisfaction of
Generative models are increasingly used to capture correlations in many-body systems, but the representations
When a neural time-series model reports that one variable modulates another's effect on a target, is the disco
Quality-diversity reinforcement learning (QD-RL) aims to construct policy repertoires that contain both high-p
Vision-Language Models (VLMs) are increasingly required to process unbounded video streams in applications suc
Recently, language models have made rapid progress across various domains and applications. However, their cap
Temporary work-zone speed limits are communicated through visually inconsistent signage and are often missing
Accurate quantification and uptake measurement in PET are critical for assessing disease progression and suppo
Abnormality detection is a crucial yet challenging task in medical image analysis. Distinguishing abnormalitie
To perform a wide range of daily tasks, robots need to construct a 3D representation that is semantically rich
Reward models play a pivotal role in reinforcement learning (RL) and multi-modal trajectory selection for auto
Humanoid robots require whole-body motions that adapt to scene context, task requirements, and user intent. Mo
Multi-contrast brain MRI provide complementary soft-tissue characteristics that aid in the screening and diagn
Diffusion models have become a powerful tool for generative modeling in robotics, with diffusion policies exce
Robots deployed in human-centric environments routinely receive natural-language descriptions of spatial infor
Compositional priors describe the generic properties of layered functions in deep Bayesian models, where deep
The main goal in regression modelling consists in approximating the conditional mean of a response given a set
We study component recovery and mixing-matrix estimation from unlabeled finite mixtures whose observable distr
Understanding and comparing structures in scalar fields is a central challenge in scientific visualization, wi
Test-time Scaling (TTS) has emerged as a pivotal research direction for enhancing model performance by dynamic
Feed-forward 3D reconstruction models have recently shown strong generalization across diverse scenes, yet mos
Neural fields parameterize data as functions from coordinates to values, providing a unified framework for rep
Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified
Vision-language models (VLMs) enable visual recognition from semantic class descriptions, which makes them att
Facial hair is a defining trait of personal identity, yet remains a critical bottleneck for digital avatars. R
Monopedal hopping robots are conceptually simple but highly dynamic and inherently unstable. Achieving robust
A well-known model in game theory, the Volunteer's Dilemma describes a group of $n$ players who decide whether
ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション
We study finite-sample change detection for one-dimensional noisy dynamical systems using partition-based empi
We analyze the two combinatorial problems of Dominating Set and Vertex Coloring regarding what kind of local o
Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction ov
Open-vocabulary long-horizon manipulation requires robots to reason over flexible instructions and complex mul
この論文では、水上ロボットの設計の高速化のための新しい方法を提案した。Gaussian Evolutionary Specialists(GES)を用いた設計システムを用い、ロボットの形状と制御を同時に最適化することがで
この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ
この研究では、自然言語指示を実行するためにもっと実際的なエンベロイメントにおいて、視覚言語航行 (VLN) の問題に対処します。従来の 3 つのステージのアプローチは、目的地に到達するのを困難な場所や、計画と制御間の矛盾
この論文では、Reinforcement Learning(RL)ポリシーを用いて安全ロボット制御を実現した。Shield-Locoは、安全な制御を提供するための予防的安全フィルタリングを実装し、ロボットの安全な行動を導
この論文では、視覚言語行動モデルの改良を実現した。Coarse-to-Controlは、行動に必要な計画の空間を大幅に縮小し、行動の計画を実現するための新しいフレーム
3D visuomotor policies offer a promising direction for complex robotic manipulation, as depth maps and point c
This work presents a compliance-based sensor placement method for force sensing on a sensorized prostate phant
We argue that high-quality motion data can steer tracking policies toward better optimization trajectories ear
VLNベンチマークでは、ディシクリットな操作や粗い操作が使われ、UAVのヴィジョンラングジュアクション(VLJ)タスクでは短い操作が中心で、長時間飛行に対応できるfineグラINEDUAVナビゲーション(FLIGHT)ベ
Aquatic robots have expanded human access to underwater environments, yet many underwater spaces contain obsta
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile c
In this work, we focus on extending SHARP, the popular photorealistic view synthesis method, for universal mon
Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real
Deep Learningモデルのパラメータの最適化には、テスト時パフォーマンスを最適化することが重要なステップで、しかし、従来のアルゴリズムでは、テスト時パフォーマンスを最適化することは困難である。Double Pre
自動識別装置(AIS)データから船舶の軌跡を予測するためのオードインアリティー方程式(ODE)にベイズ推論を用いたモデルを開発しました。このモデルは、軌跡の不確実性も同様に予測されるため、安心して判断・意思決定が可能にな
時計関係の高次元偏微分方程式の解には、空間上では局所化し、動的にも変化する解を見つけなければならないが、これは、物理的に導かれたニューラルネットワーク(PINNs)を用いることで解くことができる。ただし、PINNsの単純
この研究では、複数のドメインの複雑なデータを分析するために、Bayesian モデルを使用して因果関係を分析するツールを開発します。主に社会調査に使用できるツールです。
本論文では、ディフュージョンモデルの解釈方法を提唱します。この方法は、ディフュージョンモデルによる標的分布の解釈を可能にすることを目的としており、モデルが標的分布に近づく速度を正確に評価し、解釈可能な結果を得ることができ
この研究では、安全な決定を取るための方法を提案します。機械学習モデルを使った安全な決定は、不確実性の量化とUQメソッドが必要です。Conformal predictionは、予測結果を予
This paper presents a simple framework that settles the complexity of Multi-Agent Path Finding (MAPF) on trees
Human video datasets used for cotraining robot manipulation policies largely consist of curated demonstrations
この研究では、ロボット操作のスピードの可変性を扱いました。この研究で提案したTempoVLAは、スピードの変化を可能にする強化学習モデルです。
この研究では、フェスタースター自動運転用の軌跡計画を改善するための新しい方法を提案します。 Waypoints Matter は、ロボットが目標地に向かって進むための最適なルートを決定します。
この研究では、実際のアカウシック現象を考慮して、3Dソナー シミュレーションを改善するモジュラー構成を提案します。
Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations,
Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ
Proof-of-work (PoW) blockchains rely on computational expenditure to secure a ledger supporting a native crypt
We analyze competing auctions in intermediated markets, where a seller selects among parallel mechanisms for t
DNQは、部分観測可能なnプレーヤーの競争ゲームを解決するためのフレームワークです。このフレームワークは、ゲームの最終結果を予測するために使用されます。
Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vis
Object insertion aims to seamlessly composite a reference object into a specified region of a background image
大きな言語モデルをデータ効率的に訓練するための、新しい方法、 GOTabPFNを提案した。
本論文では、欠損値がある表格型データの欠損補完に関して取り組み、欠損値がないセルと同様に動作するSkipパターン検出と順序性意識のあるdiffusionベースの欠損補完アルゴリズムを提案しました。
この研究では、個人の意思決定に対する効率的な解析 (Worker Utility) を提案しており、個人の意思決定を効率的に解析し、それを活用する。
この研究では、値または期待短期的なリスク管理 (Value-at-Risk and Expected Shortfall) を提案しており、短期的なリスクを効率的に管理する。
この研究では、ストッキング勾配降下法 (Stochastic-Gradient Langevin algorithms) の安定性を確保する方法を提案しており、
Watermarking methods for language models have been studied extensively in the autoregressive setting, where to
In this paper, we study the gradient descent dynamics for jointly training both layers of a one-hidden-layer R
We show every multi-group learner in the transductive setting may incur a multiplicative penalty in its error
都市計画を最適化するために、クオリティ-ダイバーシティ最適化を使用する方法を提案する。
We study the problem of fairly allocating a set of indivisible goods to a set of $n$ agents with additive valu
Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical info
Lane-level maps are critical infrastructure for autonomous driving and lane-level navigation, yet constructing
Scaling humanoid loco-manipulation requires robot-compatible demonstrations across diverse objects, whole-body
3D点群処理のためのライブラリであるPoint Cloud Library(PCL)。
CoreNLPはJavaで開発されたNLPツールのセットであり、分割、文分割、名詞認識、パーシング、コorefence、感情分析などを行える。
Existing analyses of the edge of stability (EoS) treat it as a global property of optimization. We show that i
広告プラットフォームはランダム化されたLIFTテストを使用してインクレメントを評価しますが、これがプライバシを保障するためのレポートシステムを損なう可能性があります。プライバシーを保護しながら広告のインクレメント測定を可
Urban traffic simulation is a critical tool for infrastructure planning, including the placement of electric v
The 2026 disproof of Erdős's unit-distance conjecture and Sawin's quantitative refinement show that the maximu
CVPRに基づくAIを取り入れるための資料集を提供します。CVPR 2026、2025、2024、およびECCV 2024に基づくAIGCに関する研究論文とソフトウェアコードを含みます。
Hedonic price models are widely used to assess how environmental amenities affect property values, yet methodo
Gradient boosted decision trees require a stopping rule to avoid overfitting. The standard rule monitors a val
Temporal systems often exhibit non-stationary behaviour, such as seasonal climate variation or glucose fluctua
Probabilistic time series forecasting has attracted increasing attention in financial applications due to the
We introduce Convex Distance Operator Transport (CDOT), the first convex optimal transport framework that alig
We study $N$-armed stochastic dueling bandits under the Condorcet-winner assumption, where three widely adopte
The Bayesian paradigm offers principled tools for sequential decision-making under uncertainty, but its relian
A central problem in machine learning is that models can achieve near-perfect training performance while gener
Genetic programming (GP) approaches are among the state-of-the-art for symbolic regression, the task of constr
The coordination of heterogeneous autonomous agents in dynamic, adversarial environments requires simultaneous
Training accurate medical image segmentation models requires large amounts of densely annotated data, which is
このリポジトリには、CVPR 2026で発表されたポスター生成ツール「PosterGen」の公式リポジトリが含まれます。
Bayesian optimization is a popular way to optimize expensive systems, where every experiment, simulation, or i
Sufficient dimension reduction (SDR) seeks a low-dimensional linear projection of predictors that preserves th
This paper investigates clustering in survival data by shifting the analytical focus from cumulative survival
We study budget feasible procurement auctions, in which $n$ agents, each with a privately held service cost, o
Population-level heterogeneity is ubiquitous in biomedical data, where differences across demographic or clini
What made useful knowledge cumulative was not discovery alone but the institutions that transmitted it. We pro
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (
Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relatio
While current multimodal models are proficient at open-ended visual editing, executing precise single-answer e
Diffusion models have emerged as the backbone of modern generative AI, powering advances in vision, language,
We present a deep photonic neural network architecture based on ultrafast binary optical modulation from a dig
OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。
In large-scale benchmarking of stochastic optimization algorithms, the key challenge is no longer whether repe
Evolutionary systems have demonstrated remarkable results in creative domains, with recent applications in gen
Neural networks are known to develop latent representations that are $aligned$, namely structurally similar ac
Blockchains have popularized the Automated Market Makers (AMMs), where users trade crypto-assets directly with
OpenCVを用いて画像処理の学習方法を紹介している。
Cooperative multi-agent systems require robust mechanisms for credit assignment under uncertainty. Here we int
このプロジェクトは2Dおよび3D顔の分析を実現するための基盤プロジェクトであり、最先端の技術を導入して顔の分析を実現します。
この研究では、時間空間オブジェクト認識のためのお気に入りのサブストラットを開発するため、Spiking Reinterpretation of Thousand Brains Theoryという方法を提案しました。これは
意図的なプレーヤーに反応するビジネス戦略を開発する方法が提案される。意図的なプレーヤーは、価格を高く抑えるためにアーティフィシャルビジネスを利用する。この方法により、ビジネスが意図的なプレーヤーに反応するビジネス戦略を開
この研究では、GaryマルクスのAlgebraicMindというアイデアに基づいて、計算モジュールと表現言語の間の橋渡しとして代数的認識を構築するための提案を紹介します。このモジュールでは、registerとtreele
この研究では、混合整数最適化の進化戦略に基づくオブジェクト関数の近似精度を確保するためのアプローチを示します。従来の進化戦略では、選択された座標の整数変数の標準偏差に下限を設けて、整数変数の収束を防ぐことが一般的です。こ
Backpropagation with gradient descent is a common optimization strategy employed by most neural network archit
部門間の競争では、評価に基づいて候補者を選択する必要があることが多い。しかし、これまでのランダムな選択メカニズムは、候補の中で微妙な差異のあるデータの不均衡を考慮していなかった。これにより、安定性が低くなる。そのため、今
This paper studies Social Law Synthesis (SLS) in strategic multi-agent environments as a new multi-unit mechan
パレートフロントに近づくための非-smooth な集団を使用する方法を提案し、この方法が効果的なパレートフロントの近似を実現することを実験結果により示した。
Aim/Introduction: Distance-encoding biomorphic-informational neural network (DEBI-NN) is a recently proposed a
We study the problem of learning Nash equilibria in offline two-player zero-sum Markov games. While existing a
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。
In several socioeconomic-critical decision-making settings, such as fair resource allocation, climate policy,
We study Bayesian persuasion when the receiver evaluates actions by reward-side Conditional Value-at-Risk (CVa
We extend RDEx-CSOP with 3 changes that target stagnation & late-stage variance, plus minor parameter tuning.