multimodal」の検索結果

200
githubGitHubあり2026-06-09

transformers — 🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。

深層学習Transformer分類テキスト音声
用途
機械学習モデル定義
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

sglang — SGLang is a high-performance serving framework for large language models and multimodal models.

SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。

深層学習Transformer画像テキストマルチモーダル
用途
大規模言語モデルのサービングフレームワーク
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

lance — Open Lakehouse Format for Multimodal AI. Convert from Parquet in 2 lines of code for 100x faster random access, vector index, and data versioning. Compatible with Pandas, DuckDB, Polars, Pyarrow, and PyTorch with more integrations coming..

マルチモーダルAIに適したオープンレイクハウスフォーマットです。このフォーマットでは、パレットからデータを2行のコードで変換することができ、100倍速くなります。また、ベクトルインデックスやデータバージョニングが可能です

自然言語処理大規模言語モデルマルチモーダル
用途
オープンレイクハウスフォーマット
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

haystack — Open-source AI orchestration framework for building context-engineered, production-ready LLM applications. Design modular pipelines and agent workflows with explicit control over retrieval, routing, memory, and generation. Built for scalable agents, RAG, multimodal applications, semantic search, and conversational systems.

オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。

深層学習Transformer生成要約テキスト
用途
LLMアプリケーションの構築
難易度
Easy
コスト
High
arxivPaper only2026-06-08

LargeMonitor: Monitoring Online Task-Free Continual Learning via Large Pretrained Models

オンライン学習の継続学習では、モデルは非駅性データ ストリームから知識を継続的に蓄積する必要があります。モデルのパラメータはトレーニング中に効果的に調整される必要がありますが、パラメータ効率的なプロンプト チューニングや

深層学習軽量化・量子化検出テキストマルチモーダル
用途
オンライン学習の継続学習
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。

センサ/時系列深層学習Transformer検出生成埋め込み
用途
パーキンソン病の早期 検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning

理論的思考は、最新の基礎モデルシステムが安全かつ効果的に現実世界で動作するには必須のスキルであると考えられています。しかし、理論的思考の進進には、「ショートカット」問題が存在し、タスクは99%の正解率を達成するのに、ただ

自然言語処理RAGテキストマルチモーダル強化学習
用途
理論的思考の強化問題
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization

オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ

深層学習軽量化・量子化マルチモーダル強化学習
用途
オンポリシーディストリレーション問題
難易度
Hard
コスト
High
arxivPaper only2026-06-08

ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset

LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。

品質予測/異常検知コンピュータビジョン動画認識検出画像テキスト
用途
医学論文執筆のサポート
難易度
Hard
コスト
High
arxivPaper only2026-06-08

ATN3D: Density-Aware LiDAR-Radar Early 3D Object Detection Under Extreme Sparsity

自動運転車やインテリジェント輸送システムなどの自動化された車両の感知には3次元オブジェクト検出が必要です。道路での長距離検出は困難ですが、道路ではこの「長距離」に対する感知と決定の時間は約1-2秒です。2つの主な課題が現

センサ/時系列深層学習Transformer分類検出テキスト
用途
車のデッキの長距離認識に対する3次元オブジェクト検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Vision Language Model Helps Private Information De-Identification in Vision Data

ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す

コンピュータビジョン物体検出分類検出画像
用途
ビジョン言語モデルを使用したビジュアルデータのプライバシー保護
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連

コンピュータビジョンマルチモーダルQA画像テキスト
用途
統合医療医系のためのLLMベースの医療エージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Interpretable Crisis Behavior Analysis Using Mobility and Social Media Data

人間は危機時に移動パターンやメディアの投稿のパターンが変化し、分析が難しいようになった。この研究では、運動データやメディアデータの統合を用いて危機時の行動パターンを分析し、危機の状況における行動を予測した。

説明可能品質予測/異常検知コンピュータビジョンセグメンテーションマルチモーダル
用途
クライシス時の行動分析
難易度
Hard
コスト
High
arxivPaper only2026-06-08

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ

自然言語処理大規模言語モデル生成テキストマルチモーダル
用途
マルチモーダル記憶の評価
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models

この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字

品質予測/異常検知自然言語処理大規模言語モデル分類セグメンテーションテキスト
用途
ムルティリンガル辞書のデジタル化
難易度
Hard
コスト
High
githubGitHubあり2026-06-06

EEGUnity — An open source tool for large-scale EEG datasets processing

ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション

コンピュータビジョンマルチモーダル
用途
ビデオ diffusioin trasformerで長さのエキサポレーション
難易度
Easy
コスト
High
arxivGitHubあり2026-06-05

RhinoVLA Technical Report

この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV

深層学習軽量化・量子化画像テキストマルチモーダル
用途
VLAモデルをedgeハードウェアにデプロイするための手法
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Beyond Waypoints: A Trajectory-Centric Waypointing Paradigm for Vision-Language Navigation

この研究では、自然言語指示を実行するためにもっと実際的なエンベロイメントにおいて、視覚言語航行 (VLN) の問題に対処します。従来の 3 つのステージのアプローチは、目的地に到達するのを困難な場所や、計画と制御間の矛盾

コンピュータビジョンマルチモーダル生成
用途
自動車のトラクタシー
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Discrete Causal Representations from Heterogeneous Domains: A Bayesian Approach with Social Survey Applications

この研究では、複数のドメインの複雑なデータを分析するために、Bayesian モデルを使用して因果関係を分析するツールを開発します。主に社会調査に使用できるツールです。

説明可能コンピュータビジョンセグメンテーション生成埋め込みマルチモーダル
用途
複数のドメインの因果関係を分析するツールを開発
難易度
Hard
コスト
High
arxivPaper only2026-06-04

MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

Vision-Language-Action(バブルラボ、VLアクション)ポリシーが長時間予測と高い不確実性の制御で脆弱であることを認識し、VLアクションポリシーが1パスでのアクションデコードのみを提供し、長時間予測のた

品質予測/異常検知自然言語処理プロンプトエンジニアリングテキストマルチモーダル
用途
long-horizonおよびhigh-uncertainty ControlでのVLAポリシーが脆弱である問題に対する解決策。
難易度
Hard
コスト
High
arxivPaper only2026-06-04

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

このリポジトリでは、画像認識モデルにアクション生成能力を付与することを目指したモデルを提案します。このモデルは、画像認識のための事前訓練モデルを用いて、複雑なアクションを生成することができます。

深層学習Transformer検出生成予測
用途
画像認識とアクションの生成
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Towards a Data Flywheel for Embodied Intelligence in Logistics

Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ

コンピュータビジョンマルチモーダル異常検知テキスト動画
用途
ロボットの行動予測に適した空間を構築
難易度
Hard
コスト
High
githubGitHubあり2026-05-21

deeplake — Deeplake is AI Data Runtime for Agents. It provides serverless postgres with a multimodal datalake, enabling scalable retrieval and training.

自動変換により、モデルはテスト時に計算量を最適化し、難しいステップでより多く計算すると同時に、簡単なステップでより少ない計算を実行します。

自然言語処理大規模言語モデルマルチモーダル
用途
言語モデルに計算量を最適化
難易度
Easy
コスト
High
arxivPaper only2026-05-19

Smooth Partial Lotteries for Stable Randomized Selection

部門間の競争では、評価に基づいて候補者を選択する必要があることが多い。しかし、これまでのランダムな選択メカニズムは、候補の中で微妙な差異のあるデータの不均衡を考慮していなかった。これにより、安定性が低くなる。そのため、今

品質予測/異常検知コンピュータビジョンマルチモーダル
用途
スマートなランダムな選択を促す方法を実現する
難易度
Hard
コスト
High