ultralytics — Ultralytics YOLO 🚀
ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。
- 用途
- オブジェクト検出
- 難易度
- Easy
- コスト
- Low
「segmentation」の検索結果
143 件ultralyticsはYOLO(You Only Look Once)の技術を使用したオブジェクト検出ライブラリで、高い精度を提供している。
supervisionは、機械学習技術を活用して、ユーザー独自のコンピュータビジョンツールを作成することができる。
データラベル化と注釈化を行うためのツールです。
CVATは、機械学習用の業界標準のデータエンジンです。さまざまなスケールのチームが使用し、さまざまなスケールのデータに対応しています。
イメージを注釈するツール。ポリゴン、長方形、円、線、点などを注釈することができる。
stanzaは、さまざまな言語を処理するための言語処理用ライブラリです。
この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。
画像分割を目的としたDeep learningモデルを提案した論文です。Deep learningモデルが画像を構成するオブジェクトに適切に分割できるようにするために、画像を分割したときの画像の特徴量を用いて学習します。
Learned representations across models and modalities often exhibit striking structural similarities, suggestin
安全な強化学習のためのデータの削除を提案。データ ポイズニング攻撃からデータを保護するために、データを削除する方法を提案した。
Retrieval algorithms are used to estimate atmospheric concentrations of greenhouse gases (GHGs), such as carbo
Understanding tactical organisation of association football, hereafter referred to as football, requires ident
方程式生成は、数値データから数学的方程式を生成することを目的としたものです。方程式生成を実現するためには、記号的回帰アルゴリズム(Symbolic Regression、SR)が使用されます。SRの実行のパフォーマンスは
高次元表形式データでは、数値サンプル(n)が特徴数(m)を上回ることが多いです。つまりこれらのドメインでは、$\mathbb{R}^m$ で直接密度関数を表現することは非実際である。私たちは、BSTabDiff:ブロック
これは、不確実性やリスクを減らすために、$\rho$-NPTS (Nonparametric Thompson Sampling) というアレイフリーの非パラメトリックベースのThompson Samplingで、リスク
Many stages of the robotic lifecycle, from morphology synthesis to operation, rely fundamentally on the reacha
ワールドアクションモデルを高速化するために、情報のキャッシュと伝達を提案します。
Synthetic healthcare data are widely proposed as privacy-preserving substitutes for real patient data, yet the
この論文では、AI エヴァルレーション結果をより効果的に解釈するために、新しいフレームワークを提案する。
Recent Anomaly Detection methods achieve perfect detection and segmentation scores on well-established dataset
Output space pattern sampling is a powerful alternative to exhaustive pattern mining for exploring large patte
Agentic AIシステムの不確実性が、同じ要求から異なる計画、ツールの呼び出しなどが生成されることを示唆している。このようにしてシステムの信頼性を確保するには、AIエージェントのパラメータを確立することが重要となる。
Extracting building polygon contours from high-resolution remote sensing images is a fundamental task for vari
この研究では、CMA-ESアルゴリズムの停止条件を評価します。この研究では、CMA-ESアルゴリズムの停止条件が機能するかどうかを調べ、アルゴリズムを改良するための情報を提供します。
この研究では、形式言語の学習性を評価するための方法を開発します。この方法は、形式言語の学習性がどれだけのデータを必要とするかを評価することができます。
この研究では、指示のフォローにおける思考の役割を評価します。この研究では、指示のフォローにおける思考の役割がどれだけの影響を与えるかを調べ、指示のフォローを改良
人間は危機時に移動パターンやメディアの投稿のパターンが変化し、分析が難しいようになった。この研究では、運動データやメディアデータの統合を用いて危機時の行動パターンを分析し、危機の状況における行動を予測した。
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
End-to-end co-optimization of optical front-ends (e.g. metasurfaces) and neural network back-ends has been wid
The state-of-the-art generative models, such as CycleGAN, Pix2Pix, and diffusion models have demonstrated rema
Diffusion-based generative models have achieved remarkable success in real-world image super-resolution (SR).
Conventional one-hot encodings often yield poorly calibrated models, being overconfident under attack, and let
Video world models have made rapid progress in generating controllable visual experiences, but most of them st
Generalized Few-Shot Semantic Segmentation (GFSS) has traditionally been approached as a representation-learni
The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal
Video semantic segmentation for low-altitude UAVs requires temporal consistency, yet dense optical flow introd
Autoregressive (AR) models have demonstrated strong potential in visual generation, offering superior performa
Unmanned Aerial Vehicle (UAV) multispectral point clouds (MPC) provide high-dimensional spatial-spectral data
Vision-Language-Action models face significant challenges in real-world deployment due to the entanglement of
This paper introduces EPS3D, a new end-to-end feed-forward framework for open-vocabulary 3D panoptic segmentat
In many binary segmentation tasks, most multimodal methods rely on fixed feature concatenation for cross-modal
Human hand-object interactions encode functional intent, but direct transfer to robotic hands often fails unde
Autonomous mobile robots operating in tight environments require motion planning frameworks that account for t
The Robot Operating System~2 (ROS 2) is a widely used middleware for robotic systems, characterized by a publi
セマンティックシーケンス分割モデルのライブラリです。
We study a capability the dominant paradigm in synthetic tabular data does not provide: exact satisfaction of
Generative models are increasingly used to capture correlations in many-body systems, but the representations
When a neural time-series model reports that one variable modulates another's effect on a target, is the disco
Quality-diversity reinforcement learning (QD-RL) aims to construct policy repertoires that contain both high-p
Selective predictors answer on confident inputs and abstain elsewhere; deploying one safely needs a single fin
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Recently, language models have made rapid progress across various domains and applications. However, their cap
CNN-based semantic segmentation networks usually rely on context heads such as ASPP, PPM, or attention modules
Change detection and scene recognition techniques have been widely applied to Street View Imagery (SVI) to und
Accurate quantification and uptake measurement in PET are critical for assessing disease progression and suppo
Abnormality detection is a crucial yet challenging task in medical image analysis. Distinguishing abnormalitie
Low-Rank Adaptation (LoRA) enables efficient federated fine-tuning of segmentation foundation models for medic
To perform a wide range of daily tasks, robots need to construct a 3D representation that is semantically rich
Remote sensing applications for environmental monitoring and disaster management are frequently constrained by
Humanoid robots require whole-body motions that adapt to scene context, task requirements, and user intent. Mo
Multi-contrast brain MRI provide complementary soft-tissue characteristics that aid in the screening and diagn
Vision-language models (VLMs) pretrained on large-scale image-text pairs demonstrate strong image-level unders
Generating complete 3D scenes from a single image requires inferring globally consistent geometry, object rela
Diffusion models have become a powerful tool for generative modeling in robotics, with diffusion policies exce
The main goal in regression modelling consists in approximating the conditional mean of a response given a set
We study component recovery and mixing-matrix estimation from unlabeled finite mixtures whose observable distr
Sentence segmentation in Arabic is challenging due to ambiguous and inconsistent punctuation, with many texts
Understanding and comparing structures in scalar fields is a central challenge in scientific visualization, wi
Test-time Scaling (TTS) has emerged as a pivotal research direction for enhancing model performance by dynamic
We present SegmentAnyTreeV2, a sensor- and platform-agnostic framework for semantic and instance segmentation
Neural fields parameterize data as functions from coordinates to values, providing a unified framework for rep
MRI preprocessing defines the input distribution seen by brain MRI foundation models, yet it is usually treate
Vision Transformers operate on fixed patch grids, which can introduce phase-dependent instability for dense pr
Vision-language models (VLMs) enable visual recognition from semantic class descriptions, which makes them att
Facial rigging - creating FACS-based blendshapes together with inner-mouth geometry (teeth, gums, and tongue)
In assisted teleoperation for human-robot collaboration, accurate intention prediction is critical for enablin
Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the
A well-known model in game theory, the Volunteer's Dilemma describes a group of $n$ players who decide whether
We study finite-sample change detection for one-dimensional noisy dynamical systems using partition-based empi
Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction ov
この論文では、水上ロボットの設計の高速化のための新しい方法を提案した。Gaussian Evolutionary Specialists(GES)を用いた設計システムを用い、ロボットの形状と制御を同時に最適化することがで
この論文では、Reinforcement Learning(RL)ポリシーを用いて安全ロボット制御を実現した。Shield-Locoは、安全な制御を提供するための予防的安全フィルタリングを実装し、ロボットの安全な行動を導
This work presents a compliance-based sensor placement method for force sensing on a sensorized prostate phant
Deep Learningモデルのパラメータの最適化には、テスト時パフォーマンスを最適化することが重要なステップで、しかし、従来のアルゴリズムでは、テスト時パフォーマンスを最適化することは困難である。Double Pre
自動識別装置(AIS)データから船舶の軌跡を予測するためのオードインアリティー方程式(ODE)にベイズ推論を用いたモデルを開発しました。このモデルは、軌跡の不確実性も同様に予測されるため、安心して判断・意思決定が可能にな
時計関係の高次元偏微分方程式の解には、空間上では局所化し、動的にも変化する解を見つけなければならないが、これは、物理的に導かれたニューラルネットワーク(PINNs)を用いることで解くことができる。ただし、PINNsの単純
この研究では、複数のドメインの複雑なデータを分析するために、Bayesian モデルを使用して因果関係を分析するツールを開発します。主に社会調査に使用できるツールです。
本論文では、ディフュージョンモデルの解釈方法を提唱します。この方法は、ディフュージョンモデルによる標的分布の解釈を可能にすることを目的としており、モデルが標的分布に近づく速度を正確に評価し、解釈可能な結果を得ることができ
この研究では、安全な決定を取るための方法を提案します。機械学習モデルを使った安全な決定は、不確実性の量化とUQメソッドが必要です。Conformal predictionは、予測結果を予
This paper presents a simple framework that settles the complexity of Multi-Agent Path Finding (MAPF) on trees
この研究では、フェスタースター自動運転用の軌跡計画を改善するための新しい方法を提案します。 Waypoints Matter は、ロボットが目標地に向かって進むための最適なルートを決定します。
この研究では、フェスタースター自動運
ポイントサンプリングを高速化する方法を開発しました。この方法は、ポイントサンプリングを高速化できます。
Open-vocabulary 3D functionality segmentation enables robots to localize functional object components in 3D sc
Proof-of-work (PoW) blockchains rely on computational expenditure to secure a ledger supporting a native crypt
We analyze competing auctions in intermediated markets, where a seller selects among parallel mechanisms for t
DNQは、部分観測可能なnプレーヤーの競争ゲームを解決するためのフレームワークです。このフレームワークは、ゲームの最終結果を予測するために使用されます。
大きな言語モデルをデータ効率的に訓練するための、新しい方法、 GOTabPFNを提案した。
本論文では、欠損値がある表格型データの欠損補完に関して取り組み、欠損値がないセルと同様に動作するSkipパターン検出と順序性意識のあるdiffusionベースの欠損補完アルゴリズムを提案しました。
この研究では、値または期待短期的なリスク管理 (Value-at-Risk and Expected Shortfall) を提案しており、短期的なリスクを効率的に管理する。
この研究では、ストッキング勾配降下法 (Stochastic-Gradient Langevin algorithms) の安定性を確保する方法を提案しており、
Watermarking methods for language models have been studied extensively in the autoregressive setting, where to
In this paper, we study the gradient descent dynamics for jointly training both layers of a one-hidden-layer R
We show every multi-group learner in the transductive setting may incur a multiplicative penalty in its error
都市計画を最適化するために、クオリティ-ダイバーシティ最適化を使用する方法を提案する。
We study the problem of fairly allocating a set of indivisible goods to a set of $n$ agents with additive valu
CoreNLPはJavaで開発されたNLPツールのセットであり、分割、文分割、名詞認識、パーシング、コorefence、感情分析などを行える。
Existing analyses of the edge of stability (EoS) treat it as a global property of optimization. We show that i
広告プラットフォームはランダム化されたLIFTテストを使用してインクレメントを評価しますが、これがプライバシを保障するためのレポートシステムを損なう可能性があります。プライバシーを保護しながら広告のインクレメント測定を可
Urban traffic simulation is a critical tool for infrastructure planning, including the placement of electric v
The 2026 disproof of Erdős's unit-distance conjecture and Sawin's quantitative refinement show that the maximu
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify
Hedonic price models are widely used to assess how environmental amenities affect property values, yet methodo
Gradient boosted decision trees require a stopping rule to avoid overfitting. The standard rule monitors a val
Probabilistic time series forecasting has attracted increasing attention in financial applications due to the
We introduce Convex Distance Operator Transport (CDOT), the first convex optimal transport framework that alig
We study $N$-armed stochastic dueling bandits under the Condorcet-winner assumption, where three widely adopte
The Bayesian paradigm offers principled tools for sequential decision-making under uncertainty, but its relian
A central problem in machine learning is that models can achieve near-perfect training performance while gener
Genetic programming (GP) approaches are among the state-of-the-art for symbolic regression, the task of constr
Training accurate medical image segmentation models requires large amounts of densely annotated data, which is
Bayesian optimization is a popular way to optimize expensive systems, where every experiment, simulation, or i
Sufficient dimension reduction (SDR) seeks a low-dimensional linear projection of predictors that preserves th
We study budget feasible procurement auctions, in which $n$ agents, each with a privately held service cost, o
Population-level heterogeneity is ubiquitous in biomedical data, where differences across demographic or clini
What made useful knowledge cumulative was not discovery alone but the institutions that transmitted it. We pro
Diffusion models have emerged as the backbone of modern generative AI, powering advances in vision, language,
In large-scale benchmarking of stochastic optimization algorithms, the key challenge is no longer whether repe
Neural networks are known to develop latent representations that are $aligned$, namely structurally similar ac
Blockchains have popularized the Automated Market Makers (AMMs), where users trade crypto-assets directly with
Cooperative multi-agent systems require robust mechanisms for credit assignment under uncertainty. Here we int
意図的なプレーヤーに反応するビジネス戦略を開発する方法が提案される。意図的なプレーヤーは、価格を高く抑えるためにアーティフィシャルビジネスを利用する。この方法により、ビジネスが意図的なプレーヤーに反応するビジネス戦略を開
このライブラリは、コンピューター ビジョンのための高度なAI解釈と可視化ソリューションです。このライブラリは、CNN、ビジョン トランスフォーム、分類、物体検出、分割、画像類似度など、さまざまなコンピューター ビジョンの
A collection of tutorials on state-of-the-art computer vision models and techniques. Explore everything from f
この研究では、GaryマルクスのAlgebraicMindというアイデアに基づいて、計算モジュールと表現言語の間の橋渡しとして代数的認識を構築するための提案を紹介します。このモジュールでは、registerとtreele
この研究では、混合整数最適化の進化戦略に基づくオブジェクト関数の近似精度を確保するためのアプローチを示します。従来の進化戦略では、選択された座標の整数変数の標準偏差に下限を設けて、整数変数の収束を防ぐことが一般的です。こ
Backpropagation with gradient descent is a common optimization strategy employed by most neural network archit
パレートフロントに近づくための非-smooth な集団を使用する方法を提案し、この方法が効果的なパレートフロントの近似を実現することを実験結果により示した。
Aim/Introduction: Distance-encoding biomorphic-informational neural network (DEBI-NN) is a recently proposed a
We study the problem of learning Nash equilibria in offline two-player zero-sum Markov games. While existing a
In several socioeconomic-critical decision-making settings, such as fair resource allocation, climate policy,
We study Bayesian persuasion when the receiver evaluates actions by reward-side Conditional Value-at-Risk (CVa
We extend RDEx-CSOP with 3 changes that target stagnation & late-stage variance, plus minor parameter tuning.