3d」の検索結果

78
arxivPaper only2026-06-08

ATN3D: Density-Aware LiDAR-Radar Early 3D Object Detection Under Extreme Sparsity

自動運転車やインテリジェント輸送システムなどの自動化された車両の感知には3次元オブジェクト検出が必要です。道路での長距離検出は困難ですが、道路ではこの「長距離」に対する感知と決定の時間は約1-2秒です。2つの主な課題が現

センサ/時系列深層学習Transformer分類検出テキスト
用途
車のデッキの長距離認識に対する3次元オブジェクト検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs

3次元シミュレーションシーンから知識グラフを構築することが、ロボットのタスク推論に重要な役割を果たすが、シーンのオブジェクトを形式的な分類にマッピングするステップが、現実に現れていない。LLMを使用して、このマッピングの

自然言語処理大規模言語モデルテキスト3D
用途
3次元シミュレーションシーンから知識グラフを構築する
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

An Enhanced Geometric-Spectral Feature Learning Framework for Airborne Multispectral Point Cloud Classification

空中マルチスペクトル点群(MPC)では、三次元空間とスペクトルの情報を組み合わせたデータが取得できるが、点群データの分類は難しい課題であったため、新しい学習フレームワークを 提案。

深層学習Transformer分類3D
用途
空中多スペクトル点群の分類
難易度
Hard
コスト
High
arxivPaper only2026-06-08

SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning

Vision-and-Languageナビゲーションエージェントは、言語指示に従って環境を探索できる。Zero-shot Vision-and-Languageナビゲーションエージェントには、未知の環境における安全性と信

深層学習軽量化・量子化検出画像3D
用途
バイオインフォマティクスのための零-shot Vision-and-Languageナビゲーションエージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Dash2Sim: Closed-Loop Driving Simulation from in-the-wild Dashcam Videos

この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ

センサ/時系列品質予測/異常検知コンピュータビジョン3D・点群生成テキスト動画
用途
ドライビングシミュレーションのためのフレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Does Appearance Help? A Systematic Study of Image-Based Re-Identification in Online 3D Multi-Pedestrian Tracking

3D Multi-Object Tracking (MOT)では、人の動きを検出し続けるために、3D点群データから3D人体の姿勢姿勢を推測する必要があり、主に幾何学情報に依存しているが、これは状況によっては人を分別するの

深層学習Transformer検出画像テキスト
用途
3D人間の追跡システムの外観の有用性
難易度
Hard
コスト
High
arxivPaper only2026-06-05

QuadVerse: An Integrated Framework Aligning Visual-Physical Reality for Quadruped Simulation

この論文では、四足ロボットのシマイルのためのQuadVerseフレームワークを提案した。QuadVerseは、視覚的、物理的、動的なギャップを考慮したシマイルを用い、四足ロボットの実験環境とシマイルを統合した。

品質予測/異常検知自然言語処理RAG画像動画3D
用途
四足ロボットのシマイル
難易度
Hard
コスト
High
arxivPaper only2026-06-04

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

このリポジトリでは、画像認識モデルにアクション生成能力を付与することを目指したモデルを提案します。このモデルは、画像認識のための事前訓練モデルを用いて、複雑なアクションを生成することができます。

深層学習Transformer検出生成予測
用途
画像認識とアクションの生成
難易度
Hard
コスト
High