化学」の検索結果

12
githubGitHubあり2026-06-09

ART — Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen3.6, GPT-OSS, Llama, and more!

ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。

自然言語処理大規模言語モデル強化学習
用途
多段強化学習トレーナー
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像
用途
強化学習フレームワーク
難易度
Easy
コスト
High
arxivPaper only2026-06-08

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは

強化学習方策勾配 (PPO / A3C)テキスト
用途
攻撃の応答
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

この研究では、強化学習のトレーニングに使用するRewardsの検証が難しい場合は、Rewardがグループレベルでは無価値で、グループ間の優劣比較が不可能となる問題に対処するためのReasoning Arenaを提案します

品質予測/異常検知深層学習軽量化・量子化生成テキスト強化学習
用途
強化学習のトレーニング
難易度
Hard
コスト
High
arxivPaper only2026-06-08

A Regret Minimization Framework on Preference Learning in Large Language Models

強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決

自然言語処理大規模言語モデルテキスト強化学習
用途
可能な行動の選択のための意思決定フレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-05-26

Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

強化学習を利用し、LLMを最適化するには、適切なパラメータを選択することが重要です。この研究では、強化学習のパラメータがLLMの性能にどのような影響を与えるかを調査し、パラメータを最適化する方法を提案することを目指す。

自然言語処理大規模言語モデルテキスト
用途
強化学習
難易度
Hard
コスト
High