MLinfo | 機械学習・AI論文まとめ

MLinfo|日々更新される技術をキャッチアップ/検索

「化学」の検索結果

17 件

すべて arxiv github huggingface 実装あり

githubGitHubあり2026-07-24

stable-baselines3 — PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algorithms.

このリポジトリでは、LLMベースのエージェントアプリケーションのための強化学習の橋渡しを提供しています。

強化学習

用途: 強化学習を簡素化させる橋渡し
難易度: Easy
コスト: High

→

githubGitHubあり2026-07-24

ART — Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen3.6, GPT-OSS, Llama, and more!

ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。

自然言語処理大規模言語モデル強化学習

用途: 多段強化学習トレーナー
難易度: Easy
コスト: High

→

githubGitHubあり2026-07-24

PufferLib — Puffing up reinforcement learning

強化学習

用途: 強化学習用ライブラリ
難易度: Easy
コスト: Medium

→

arxivPaper only2026-07-23

Approximate Quantum State Preparation Through Proximal Policy Optimization

この研究では、深層強化学習を用いて、クォンタムSTATEPREPARATIONの近似方程式を学習し、クォンタムシステムの最適な操作手法を検討するための新しいアプローチを提案します。

強化学習方策勾配 (PPO / A3C)

用途: クォンタムSTATE PREPARATION
難易度: Hard
コスト: Medium

→

arxivPaper only2026-07-23

Chemical Chain-of-Thought Functions as a Hallucination-Prone Molecular Scratchpad

化学物質の構造を予測する言語モデルが信頼性の低い情報を生成する傾向があることを指摘し、原因と解決策について検討している。

MI向き自然言語処理RAG生成テキスト

用途: 化学物質の構造予測
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-23

FORGE-plus: Force-Budgeted Recovery for Contact-Rich Assembly with a Frozen LLM Supervisor

強制制約に基づく強化学習を利用し、低コストで高精度の組み立てが可能になると同時に、組み立てに失敗してもロボットが安全に回避できるように、ロボットの制御のための強化学習を提案します。

自然言語処理大規模言語モデルテキスト強化学習

用途: 非対称ロボット組み立て
難易度: Hard
コスト: High

→

arxivPaper only2026-07-23

Deep Reinforcement-Learning-Guided Model Predictive Control for Preventing Overtakes in Autonomous Racing

オートモーティブレーシングにおける防御阻止を目的とした、強化学習とモデル予測制御のハイブリッドフレームワークを提案します。このフレームワークでは、自律車

自然言語処理RAG

用途: オートモーティブレーシングにおける防御阻止
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-22

Towards Miniature Humanoid Tele-Loco-Manipulation Using Virtual Reality and Reinforcement Learning

この研究では、人間の遠隔操作を可能にするために、バーチャルリアリティと強化学習を組み合わせることを提案した。人類との対話に従って、ロボットの身体を操作し、移動することができるようになった。

自然言語処理RAG強化学習

用途: 人間の遠隔操作
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-22

Generalized Kalman filter based temporal difference reinforcement learning

この研究では、強化学習の強化値と行動値（Q値）関数を条件的期待として扱い、これらの関数の推定を確率的推論として表現する新たなフレームワークを提案しました。

深層学習Transformer強化学習

用途: 強化学習における条件的期待の利用
難易度: Hard
コスト: Medium

→

arxivPaper only2026-07-22

Dreamer-CPC: Message Learning with World Models for Decentralized Multi-agent Reinforcement Learning

分散されたシステムにおける分散多エージェント強化学習を実現するための方法を提案している。この方法は、個々のエージェントがローカルな観測に基づいてメッセージを交換し、長期の経験を考慮したメッセージを学習することで、分散され

強化学習方策勾配 (PPO / A3C)埋め込み

用途: 分散されたマルチエージェント強化学習
難易度: Hard
コスト: Low

→

arxivPaper only2026-07-21

Towards chemistries in dynamical systems

ディナミカルシステムを化学的なパラフレーズで説明する手法を提案し、システムの

自然言語処理ファインチューニング

用途: ダイナミカルシステムの化学的説明
難易度: Hard
コスト: Medium

→

arxivPaper only2026-07-21

Measuring Reward-Seeking via Contrastive Belief Updates

この研究では、強化学習の報酬探求を量化するために、新しい測定方法を提案しています。この方法は、モデルが報酬を取得する際にどのように操作しようとしているかを示すことができます。

自然言語処理大規模言語モデルテキスト強化学習

用途: 強化学習における報酬探求の測定
難易度: Hard
コスト: High

→

arxivPaper only2026-07-20

Generalize and Guide: Decomposing Rewards for Few-Shot Inverse Reinforcement Learning

複数タスク間の説明性を提供するための逆強化学習は、複数タスク間の説明性を提供することによって、複雑なタスクを解決することに関与していますが、この研究では、複数タスク間の説明性を提供するための逆強化学習の新たなアプローチを

少数データ向き自然言語処理RAG強化学習

用途: 複数タスク間の説明性のための逆強化学習のための新たなアプローチ
難易度: Hard
コスト: Low

→

githubGitHubあり2026-07-17

open_spiel — OpenSpiel is a collection of environments and algorithms for research in general reinforcement learning and search/planning in games.

ゲームの一般的な強化学習用エンドポインティであるEnvironmentおよびアルゴリズムの集合。

強化学習

用途: ゲームの一般的な強化学習用エンドポインティ
難易度: Easy
コスト: Medium

→

githubGitHubあり2026-07-14

OpenRLHF — An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & VLM & TIS & vLLM & Ray & Async RL)

OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。

深層学習Transformer画像

用途: 強化学習フレームワーク
難易度: Easy
コスト: High

→

arxivPaper only2026-07-13

Auditing the Risk Claims of Distributional Reinforcement Learning

分布型強化学習のリスク評価を容易にするために、分布型強化学習におけるリスク評価を分析しました。

説明可能強化学習モデルフリー (DQN / SAC)テキスト

用途: 分布型強化学習のリスク評価
難易度: Hard
コスト: High

→

arxivPaper only2026-06-15

Energy-efficient codon optimization on thermodynamic hardware

この研究では、テクノロジックコンピューティングを使用して、特定の生体活性を実現する化合物の設計に焦点を当てます。これは、有毒物質と有害な物質を含む、広範囲にわたる化合物集合を効率的に探索するために使用する可能性があります

品質予測/異常検知深層学習軽量化・量子化

用途: 化学物質の設計
難易度: Hard
コスト: Medium

→