MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「reinforcement」の検索結果

8 件

すべて arxiv github huggingface 実装あり

arxivGitHubあり2026-06-08

Claw-R1: A Step-Level Data Middleware System for Agentic Reinforcement Learning

Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati

品質予測/異常検知自然言語処理大規模言語モデル動画強化学習

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivGitHubあり2026-06-08

Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization

オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ

深層学習軽量化・量子化マルチモーダル強化学習

用途: オンポリシーディストリレーション問題
難易度: Hard
コスト: High

→

arxivGitHubあり2026-06-08

Collaborative Human-Agent Protocol (CHAP)

この論文では、人機協力における分散型コミュニティを考慮するために、新しいフレームワークを提案する。これにより、分散型人機協力がより効果的に設計できる。

強化学習マルチエージェント生成

用途: 分散型人機協力
難易度: Hard
コスト: Medium

→

arxivGitHubあり2026-06-08

PhysScene: A Scene Graph Dataset for Scientific Visual Reasoning in Physics Experiments

Scene Graphs (SGs) provide structured representations of visual scenes by modeling objects and their pairwise

強化学習方策勾配 (PPO / A3C)画像テキスト

用途: 技術検証・論文読解補助
難易度: Hard
コスト: Medium

→

arxivGitHubあり2026-06-08

Temporal-Aware Reasoning Optimization for Video Temporal Grounding

Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r

品質予測/異常検知深層学習Transformer検出画像テキスト

用途: 検出
難易度: Hard
コスト: High

→

arxivGitHubあり2026-06-07

Scaling Decision-Focused Learning to Large Problems with Lagrangian Decomposition

Decision-focused learning has shown great promise for addressing predict-then-optimize problems, particularly

説明可能品質予測/異常検知強化学習モデルフリー (DQN / SAC)

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivGitHubあり2026-06-06

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the

説明可能品質予測/異常検知自然言語処理大規模言語モデル画像テキストマルチモーダル

用途: 技術検証・論文読解補助
難易度: Hard
コスト: High

→

arxivGitHubあり2026-06-04

TorchKM: A GPU-Oriented Library for Kernel Learning and Model Selection

TorchKM is an open-source library for kernel machines, including support vector machines, kernel logistic regr

CPUで試しやすい強化学習方策勾配 (PPO / A3C)回帰テキスト

用途: 回帰
難易度: Hard
コスト: High

→