multimodal」の検索結果

14
arxivGitHubあり2026-06-08

Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization

オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ

深層学習軽量化・量子化マルチモーダル強化学習
用途
オンポリシーディストリレーション問題
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models

この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字

品質予測/異常検知自然言語処理大規模言語モデル分類セグメンテーションテキスト
用途
ムルティリンガル辞書のデジタル化
難易度
Hard
コスト
High
arxivGitHubあり2026-06-05

RhinoVLA Technical Report

この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV

深層学習軽量化・量子化画像テキストマルチモーダル
用途
VLAモデルをedgeハードウェアにデプロイするための手法
難易度
Hard
コスト
High