MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「qa」の検索結果

49 件

すべて arxiv github huggingface 実装あり

arxivGitHubあり2026-07-24

Filling Before Advancing: Capability-Gap-Driven Post-Training for Scenario-Specialized Remote Sensing MLLMs

この研究では、遥宙イメージングモデルの特化を支援するための能力ギャップドリブン訓練法を提案し、遥宙イメージングモデルの特化において、従来のfine-tuning法に比べて性能が向上することを示しました。

センサ/時系列品質予測/異常検知自然言語処理大規模言語モデル生成画像テキスト

用途: 遥宙イメージングの特化を支援する能力ギャップドリブン訓練
難易度: Hard
コスト: High

→

arxivPaper only2026-07-24

MEUSLI: a Multilingual Projector for LLM-based ASR and Beyond

この研究では、マルチリンガル映像認識を支援するプロジェクターを提案し、マルチリンガル

センサ/時系列深層学習軽量化・量子化QAテキスト音声

用途: マルチリンガル映像認識を支援するプロジェクター
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-24

Visual Saliency Steering Distillation for Multimodal Chain-of-Thought Reasoning

多モードチェーンオブサウンドの推論には、視覚的およびテキスト的 cueをステップアップの推論で統合することが含まれます。しかし、小型のモデルでは、モダリティ間の融合は小さなcross-modalの違いに抑圧されます。

深層学習軽量化・量子化生成画像テキスト

用途: 可視化サリエンシーをsteeringする
難易度: Hard
コスト: High

→

arxivPaper only2026-07-24

Medical-Checklist: Assessing the Comprehension of Medical Images by Multimodal Models

This paper introduces a new benchmark test, Medical-Checklist, for assessing medical multimodal models. The re

コンピュータビジョンマルチモーダル異常検知画像テキスト

用途: 異常検知
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Encoding Invisible Causation for Bridge Diagnostic Agents: Triple-Guided Retrieval-Augmented Fine-Tuning with QLoRA

Bridge infrastructure deteriorates gradually, yet its root causes---salt intrusion, freezing, fatigue cracking

深層学習軽量化・量子化テキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Training Large Language Models for Self-Explanation Faithfulness

この研究では、自己説明の信頼性を検証するためのRL方法を提案し、自己説明の信頼性を直接最適化するための新しいアプローチを検討します。

自然言語処理大規模言語モデル異常検知テキスト強化学習

用途: 自己説明の信頼性
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Best-of-Evidence: Best-of-N Selection under Partial Verification

モデル出力の選択のためのBoN（ベストオブナ）を、部分検証が含まれるビジョン言語タスクに適用する。この方法により、モデル出力を効率化できる。

品質予測/異常検知コンピュータビジョンセグメンテーション生成マルチモーダル

用途: 部分検証を含むビジョン言語タスクを効率化する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Three-Pronged Spectral Control for Federated Parameter Efficient Fine Tuning

FL（分散機械学習）におけるパラメータの効率的なフィンテューニングを支援するツールを提案した研究で、TRISHUL（Three-Pronged Spectral Control for Federated Paramet

深層学習軽量化・量子化マルチモーダル

用途: FLにおけるパラメータの効率的なフィンテューニングを支援する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Data Quality over Capacity: Internalizing Documents into LoRA Adapters for Closed-Book QA

この研究では、クローズドブックQAのアドプターを用いて、質問に対する正確な回答を生成することを目的とします。

品質予測/異常検知自然言語処理大規模言語モデルテキスト

用途: 導致する問題の解決
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

AREX: Towards a Recursively Self-Improving Agent for Deep Research

この研究では、深度学習モデルを使用して、Rapid Evaporative Ionization Mass Spectrometry (REIMS) データを用いて手術のマージン評価を改善します。モデルは実験の結果に基づ

品質予測/異常検知強化学習マルチエージェントテキスト

用途: 手術のマージン評価を解決する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

RUMBA: Russian User Memory Benchmark

この研究では、LLMsが長期記憶を持つ能力を評価するために開発された「RUMBA」という新しい基準を提示します。この基準は、記憶の長期間持つ能力を評価するための詳細な記憶関連質問の分類体系と、それを統合的に考慮するための

自然言語処理大規模言語モデルテキスト

用途: 長期記憶を解決する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

PATS: Policy-Aware Training Scaffolding for Agentic Reinforcement Learning

現在のRLアルゴリズムは、長期視野を持つ長いロールアウトを生成することが困難な时候が多く、そのため同じような失敗を繰り返し、非情報的ロールアウトと無意味のロールアウトを生み出している。しかし、スキルを内在化するスキル集中

自然言語処理大規模言語モデルテキスト強化学習

用途: 長期視野を持つRLを改善する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Unlearning Under Imbalance: Benchmarking Fairness in Multimodal LLM Unlearning

LLMは、人間のアイデンティティのシミュレーションを使用して個人データを削除したり、未均衡なデータを削除したりしますが、これらのアプローチには制限があります。

品質予測/異常検知自然言語処理大規模言語モデルQA画像テキスト

用途: モデルの個人データ削除
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

CRAG-MM-Diagnostics: Enabling Stage-Wise Analysis of Knowledge-Intensive VQA

知識重視の質問応答システム (KI-VQA) を分析するために、新しい評価基準を提案します。これらの基準では、VLMの各タスクを個別に評価することができます。

自然言語処理大規模言語モデル分類QA画像

用途: 知識重視の質問応答システムの分析
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

One More Turn, Less Regret: A Regret-Based Multi-Turn Benchmark for LLMs' Clarification Policies

再発防止を目指す会話助言の評価基準である RegretBench を提案します。这一基準评估了會話助言の多輪交互式決定における後悔を最小化すること。

品質予測/異常検知深層学習軽量化・量子化

用途: 再発防止による会話助言の評価
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

AttriMem: Attribution-Guided Process Feedback for Agent Memory Learning

代理記憶の学習は、LGMが効果的に情報を保持・更新・処理できることを意味します。この研究では、アトリビューテッドグラフィックフィードバックを使用して、代理記憶を最適化する方法を提案します。

自然言語処理大規模言語モデルQA

用途: 代理記憶の学習
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

MedGame: Storytelling Gamification Empowered by Large Language Models for Medical Education

Large Language Models (LLMs) は医学教育に大きな可能性を持っていますが、現在のシステムでは、質問に答えるか一時的なフィードバックしか行なわれていません。一方、臨床病例を決定センターへの学習トレ

自然言語処理大規模言語モデル生成QAテキスト

用途: 医学教育への Large Language ModeL の適用
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

When Trivia Is Not Trivial: Everyday Knowledge Failures in Multilingual LLMs

この論文では、大規模言語モデル (LLMs) が日常的な文化的知識を評価する能力に着目しています。ここで、TriviaRoomQA というクイズスタイルで問題を提示して、LLMs が日常的な文化的知識をどのように評価する

自然言語処理大規模言語モデルテキスト

用途: 大規模言語モデルにおける日常生活の知識の評価
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Capital Markets LLM Reliability Score (CM-LRS): From Plausible to Bankable

この研究では、リスクベンチャークラウドワークにおける可信性の向上を目的として、Capital Markets LLM Reliability Score（CM-LRS）を提案し、LLMsが生成したドキュメントの価値を確立

自然言語処理大規模言語モデル生成テキスト

用途: リスクベンチャークラウドワークの可信性の向上
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-23

REFACT: Adaptive Fact Restatement for Compact and Faithful Chain-of-Thought Reasoning

長形推論のための言語モデルが、提供されたコンテキストから乖離した論理を生成する可能性があることを指摘し、コンテキストと推論論理をより適切に融合するため、 REFACT (REstating Facts in Adapti

自然言語処理大規模言語モデル生成テキスト

用途: Chain-Of-Thought (CoT) の改善
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Quality-Aware Multimodal Fusion Reveals Implicit Identity in Valence-Arousal Features

この研究では、感情と気分の表現を分析し、顔の感情とアウトルの視聴動作とアウトルの視聴動作の結びつきを用いて、多モーダル表現を取得しました。提案された方法は、不完全な視聴動作、遮断、不良照明などの変動に対して、高い

品質予測/異常検知深層学習正規化・最適化手法分類画像テキスト

用途: 感情と気分の识別
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Do Pathology Vision-Language Models Truly See Pathology?

パスロジは、現在、パスロジ認識のための画像言語モデルを評価するために広く使用されていますが、この研究では、パスロジ認識において画像言語モデルの視覚知覚が機能していることを疑問に問っています。

自然言語処理大規模言語モデル画像テキストマルチモーダル

用途: パスロジの認識
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Beyond Episodic Evaluation: Memory Architectural Bottlenecks in Sequential Embodied Question Answering

Embodied question answering (EQA) is traditionally evaluated under an episodic formulation, where agents solve

コンピュータビジョンセグメンテーションQA画像テキスト

用途: QA
難易度: Hard
コスト: High

→

huggingfaceHugging Faceあり2026-07-23

K12-KGraph: A Curriculum-Aligned Knowledge Graph for Benchmarking and Training Educational LLMs

この研究では、大規模言語モデルをK-12教育の評価と向上に使用するための基準を提案した。主な問題は、教育の文脈における文脈理解（curriculum cognition）の欠如である。この研究では、指定された教科書から提

自然言語処理大規模言語モデルQA画像テキスト

用途: 教育における大規模言語モデルの評価と向上
難易度: Easy
コスト: High

→

arxivPaper only2026-07-22

Are Diversity Metrics Measuring Diversity? A Capability-Controlled Audit of Majority-Vote Gain in LLM Ensembles

Frontier Financial Judgement という新しい評価基準が開発されました。この基準では、エージェントの株価予測能力を評価し、人類の専門家の判断を再現する能力を評価します。

自然言語処理大規模言語モデル回帰

用途: stock価格予測
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Statistical Inference for Rank Allocation in Low-Rank Adaptation

パラメータ効率の確保を目的とした Low-Rank Adaptation (LoRA) のランクの確立を扱う研究を紹介する。

深層学習Transformer生成QAテキスト

用途: パラメータ効率の確保
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

WaveformQA: Benchmarking LLM Temporal Reasoning on Digital Waveforms

この研究では、Large Language Models (LLMs)がデジタル波形に基づいて時間の推論を実現する能力を評価した。この研究では、WaveformQAを発表し、デジタル波形に基づいて時間の推論を評価するため

自然言語処理大規模言語モデル生成テキスト

用途: 時間の推論とデジタル波形
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

HalluTruthQA: A Fine-Grained Benchmark for Hallucination Detection, Localization, and Explanation in Arabic Question Answering

大きな言語モデルは真実の情報を提供できるように見えますが、実際は虚偽情報を提供することが多く、これを検知、検出、および検証するための基準を作成するため、HalluTruthQAが開発されました。

自然言語処理大規模言語モデル検出QAテキスト

用途: 仮想の答えを検知、検出、および検証するための基準を作成する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Reinforcement Learning for Large Language Model Selective Evidence Adoption from Contaminated Retrieval Results

リトリーウードされた大規模な言語モデルは、有益な情報と誤った情報の混在するコンテキストに対処するのに苦労しています。拒否することで有益な情報を捨てることになるし、無条件に採用すると不正確または危険な回答が得られます。正確

自然言語処理大規模言語モデルテキスト強化学習

用途: 有害な情報の選択性的な採用
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Efficient Chain-of-Modality Reasoning via Progressive Compression for Spoken Language Models

spoken言語モデルの推論能力を向上させるためのアプローチを提案し、spoken言語モデルの適用範囲を拡大することを目標としています。

深層学習軽量化・量子化QAテキスト音声

用途: spoken言語モデルの推論能力を向上させるためのアプローチ
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Overview of FinMMEval 2026 Task 2: Multilingual Financial Short-Answer Question Answering

FinMMEval 2026 タスク 2 は、英語で提出された短答式の金融問題を解決することを目的としています。英語以外の言語による証拠も使用されます。

自然言語処理RAG生成QA検索

用途: 金融問題を解決する
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-22

Overview of FinMMEval 2026 Task 1: Multilingual Financial Multiple-Choice Question Answering

FinMMEval 2026 タスク 1 は、英語、中国語、アラビア語、ヒンディー語で行われる多言語的な金融質問に答えるものを評価します。

自然言語処理大規模言語モデルQAテキスト

用途: 金融問題を解決する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Sentence Splitter: Uncovering Latent Factual Structure for Self-Supervised Learning

この研究ではSentence Splitterシステムを提案し、自然言語処理の精度を高めることができました。このシステムは、自然言語を句点で分割することができます。

深層学習軽量化・量子化生成セグメンテーションQA

用途: 自然言語処理を改善する
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Reference-Free Evaluation of Reasoning in Open-Ended Question Answering

この研究では、AI生成物の論理的評価に必要なものとして、生成物がどうやって結果を得るのかを明らかにすることの重要性を強調しています。この研究では生成物を分解し、その論理的な構造を理解するために自然言語推論を利用し、生成物

自然言語処理大規模言語モデルQAテキスト

用途: AI生成物の論理的評価
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

PercepCap: Video Captioner with Structured Spatio-Temporal Perception

ビデオキャプション生成には、空間と時刻の理解が重要です。PercepCapアルゴリズムは、ビデオ入力を空間時刻認識に分解することで、生成されたキャプションの理解度が向上するとともに、空間時刻の誤差をより正確に検出でき、キ

品質予測/異常検知自然言語処理大規模言語モデル生成動画強化学習

用途: ビデオキャプション生成のための構造化された空間時刻の理解
難易度: Hard
コスト: High

→

arxivPaper only2026-07-22

Multimodal Large Language Models for Remote Sensing Image Understanding: Domain-Specific or General-Purpose?

画像理解のための多モーダルラージランゲージモデルは、強力ですが、まだ能力と限界については明確な理解が不足しています。この論文では、多モーダルラージランゲージモデルが画像理解においてどの程度の能力と限界を持つか、を分析し、

センサ/時系列深層学習軽量化・量子化QA画像テキスト

用途: 画像理解における多モーダルラージランゲージモデルの能力と限界
難易度: Hard
コスト: High

→

arxivGitHubあり2026-07-22

ReferTrack: Referring Then Tracking for Embodied Visual Tracking

ReferTrack は、自然言語で対象の車両に付近する自動車を追従させるシステムである。このシステムでは、対象の車両に付近する自動車を認識する後、自動車の動きを予測する。

自然言語処理プロンプトエンジニアリング検出画像テキスト

用途: 自動車が対象の車両に付きそわせるシステム
難易度: Hard
コスト: High

→

arxivPaper only2026-07-21

Task Competence Is Not Instruction Following: Evaluating Instruction-Conflicting Behavior in Small Language Models

Instruction tuning is meant to make language models follow user requests, yet it is unclear whether small mode

自然言語処理ファインチューニング分類QAテキスト

用途: 分類
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-21

Scaling Laws for Hypernetwork-Based Knowledge Injection in Large Language Models

ハイパーネットワークを用いた知識付与法を提案し、大規模言語モデルに確実に知識を付与する方法について検討した。

自然言語処理大規模言語モデル異常検知テキスト

用途: LLMに知識を付与
難易度: Hard
コスト: High

→

arxivPaper only2026-07-21

Selective State-Space Adaptation and Retrieval for Language Model Reasoning

Low-rank adaptation introduces a static learned update applied identically to every input. The update provides

深層学習RNN / LSTMテキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-21

MeetingToM: Evaluating Multimodal LLMs on Theory-of-Mind Reasoning in Multi-Party Meetings

この研究では、現時点の多モーダル言語モデルが人間が持つ社会的理解力を取り入れるための方法が提案され、多人数の会議のような複雑な状況を考慮して、モデルが他の人の信念、意図、知識を理解する能力が向上する。

自然言語処理大規模言語モデルQAテキスト音声

用途: 多モーダル言語モデルが人間が持つ社会的理解力に近づく方法
難易度: Hard
コスト: High

→

arxivPaper only2026-07-21

MIRA-Ev:A Benchmark for Granular Evidence Detection and Relational Reasoning in Clinical Exams

この研究では、臨床評価が主にMCQAに頼っているものの、モデルがどのような観点で回答を裏付けるかを検出できない問題に対処するために、マイクロドタイルと関係的推論のBENCHMARKであるMIRA-Evが提案された。

生成AIGAN分類検出QA

用途: マイクロドタイルの発見と関係的推論
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-21

DAIS: Dependency-Aware Intermediate QA Supervision for Complex Reasoning

この研究では、Chain-of-Thought (CoT) スーパーヒバテーションでは、最終的な答えに到達するまでの理由を公開することで、中間的には提供される理由の質を強力にし、しかし、多くの場合には、前のステージに到達

深層学習軽量化・量子化テキスト

用途: QAにおけるメモリ補助システムの開発
難易度: Hard
コスト: High

→

arxivPaper only2026-07-21

AILQA: Evaluating AI-Driven Legal Question Answering Systems for the Indian Legal System

This comprehensive study introduces an advanced Artificial Intelligence for Indian Legal Question Answering (A

品質予測/異常検知自然言語処理大規模言語モデル生成QAテキスト

用途: 生成
難易度: Hard
コスト: High

→

arxivPaper only2026-07-21

RoboInter1.5: A Holistic Intermediate Representation Suite for Embodied World Modeling and Robotic Manipulation

既存のロボットデータセットは高コスト、高度個別性、不足しているフィンガープリント構造を持ったものが多い。これらの問題を解決するために、RoboInter1.0に基づいて、RoboInter1.5を提案します。RoboIn

説明可能自然言語処理RAGセグメンテーション

用途: 体系の世界モデリングを解決する
難易度: Hard
コスト: Low

→

huggingfaceHugging Faceあり2026-07-21

FinanceComplexQA: Benchmarking Agentic Reasoning on Industrial-grade Financial Documents

金融データを扱う上で、多くのエージェントが異なる回答を示す問題を解決するために、金融-LaTeX SKILLを開発し、2,000個の専門知識を網羅した財務文書を作成する。

品質予測/異常検知自然言語処理RAG生成要約テキスト

用途: 金融分析問題解決
難易度: Easy
コスト: Low

→

huggingfaceHugging Faceあり2026-07-20

ConsiSpace: Learning Geometric Consistency Matters for Video Spatial Reasoning

Video spatial reasoning is essential for navigation-oriented perception and long-video question answering, whe

深層学習軽量化・量子化QAテキスト動画

用途: QA
難易度: Easy
コスト: High

→

arxivPaper only2026-07-19

Kernelized Linear Attention: Breaking the Capacity Wall with Symmetric Cones

Linear attention promises constant-time recurrent inference but degrades sharply on associative recall. We for

深層学習RNN / LSTM異常検知

用途: 異常検知
難易度: Hard
コスト: High

→

arxivPaper only2026-06-28

Travel-Oriented Reasoning Large Language Model via Domain-Specific Knowledge Graphs

Large language models (LLMs) demonstrate broad reasoning abilities but struggle with accuracy and reliability

自然言語処理大規模言語モデルテキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→