rllm — Democratizing Reinforcement Learning for LLMs
このリポジトリでは、AIエンジニアリングのためのリソースを提供しています。
- 用途
- AIエンジニアリング
- 難易度
- Easy
- コスト
- High
「reinforcement」の検索結果
46 件このリポジトリでは、AIエンジニアリングのためのリソースを提供しています。
Pythonでマシンラーニングアプリを作成・共有することができるライブラリです。
paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。
ゲーム『明日方舟』の支援ツール。全日常のタスクを一括で実行可能。
Gymnasiumは、シングルエージェントRLの疑似環境を提供するAPIです。
ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。
P
この研究では、弾性シミュレーションに基づいて、エピソード間の状態を保つために、リプラスの重みと、エピソードの初期状態を用いました。
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ
この論文では、人機協力における分散型コミュニティを考慮するために、新しいフレームワークを提案する。これにより、分散型人機協力がより効果的に設計できる。
Scene Graphs (SGs) provide structured representations of visual scenes by modeling objects and their pairwise
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
Unityを使用してマシンラーニングエージェントを訓練して訓練できるツールです。
Decision-focused learning has shown great promise for addressing predict-then-optimize problems, particularly
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
医療では、イメージャは単に画像を解釈するのではなく、複数の画像を比較して診断を行うことが多い。しかし、現在の技術ではこのような比較を行うことは困難であるため、メドリコのDBというデータセットを利用することで、医療の比較推
On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training
Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this
Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demandi
TorchKM is an open-source library for kernel machines, including support vector machines, kernel logistic regr
Prior work has shown that large language models (LLMs) can translate unseen or low-resource languages by under
Large language models are increasingly evaluated by other models, raising a natural question: can a model pred
Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR)
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and
Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rub
物理ベースのシミュレーションおよびロールアウト学習環境を提供するツールです。
Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning
Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science.
Large Reasoning Models (LRMs) have achieved remarkable progress thanks to Reinforcement Learning with Verifiab
On-policy self-distillation, where a language model conditions on privileged context to supervise its own gene
Memory is an indispensable capability for long-horizon LLM agents, enabling them to preserve and utilize infor
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs
Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spe
このリポジトリでは、Lecture Learning Modelsに対してReinforcement Learningを実行するライブラリを提供しています。
Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. Howe
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the
この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと
Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajector
We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision b
Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instability of op
Mathematical Foundations of Reinforcement Learningは、ディープラーニングにおける推論力学習の数学的基礎を網羅している。
強化学習に関する学習教室を提供するリポジトリです。
ゲームの一般的な強化学習用エンドポインティであるEnvironmentおよびアルゴリズムの集合。
人工知能による画像水印除去ツールとライブラリを提供する。