text」の検索結果

627
githubGitHubあり2026-06-09

transformers — 🤗 Transformers: the model-definition framework for state-of-the-art machine learning models in text, vision, audio, and multimodal models, for both inference and training.

🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。

深層学習Transformer分類テキスト音声
用途
機械学習モデル定義
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

paperless-ngx — A community-supported supercharged document management system: scan, index and archive all your documents

paperless-ngxは、コミュニティによってサポートされたスーパーチャージドのドキュメント管理システムで、ドキュメントのスキャン・インデックス・アーカイブが可能である。

強化学習方策勾配 (PPO / A3C)分類テキスト
用途
ドキュメント管理
難易度
Easy
コスト
Low
githubGitHubあり2026-06-09

unsloth — Unsloth Studio is a web UI for training and running open models like Gemma 4, Qwen3.6, DeepSeek, gpt-oss locally.

Unsloth Studioは、オープンモデルのトレーニングと実行を支援するWebUIです。このライブラリは、Gemma4、Qwen3.5などのオープンモデルのテストとトレーニングを支援するために使われます。

自然言語処理大規模言語モデルテキスト音声
用途
オープンモデルのトレーニングと実行
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

sglang — SGLang is a high-performance serving framework for large language models and multimodal models.

SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。

深層学習Transformer画像テキストマルチモーダル
用途
大規模言語モデルのサービングフレームワーク
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

haystack — Open-source AI orchestration framework for building context-engineered, production-ready LLM applications. Design modular pipelines and agent workflows with explicit control over retrieval, routing, memory, and generation. Built for scalable agents, RAG, multimodal applications, semantic search, and conversational systems.

オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。

深層学習Transformer生成要約テキスト
用途
LLMアプリケーションの構築
難易度
Easy
コスト
High
githubGitHubあり2026-06-09

unstructured — Convert documents to structured data effortlessly. Unstructured is open-source ETL solution for transforming complex documents into clean, structured formats for language models. Visit our website to learn more about our enterprise grade Platform product for production grade workflows, partitioning, enrichments, chunking and embedding.

ドキュメントを構造化するために使えるオープンソースのETLソリューション。

表形式向き自然言語処理大規模言語モデル画像テキスト表形式
用途
ドキュメントの構造化
難易度
Easy
コスト
High
arxivPaper only2026-06-08

Echo-Memory: A Controlled Study of Memory in Action World Models

この研究では、エピソード記憶を制御するために、エピソード記憶モデルを設計および評価しました。エピソード記憶モデルは、エピソード内の重要な情報を記憶し、エピソード間の相関関係を特定することができます。

品質予測/異常検知コンピュータビジョンセグメンテーション生成画像テキスト
用途
エピソード記憶
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Bandits for Efficient Experimentation: Adapting to Control Group, Preferences, and Context Drifts

この研究では、有効なバンドのオブザーバブックを設計しました。このオブザーバブックは、ユーザの相互作用とコンテキストの変化に応じて、有効バンドをアダプティブに選択することができます。

深層学習軽量化・量子化回帰テキスト
用途
有効なバンドのオブザーバブック
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

この研究では、低リソース言語NMTのために、データ合成方法を開発しました。これにより、データ合成されたコーパスを使用し、NMTモデルをパラメータ効率的にフィーヌチュン化できます。

深層学習軽量化・量子化生成翻訳テキスト
用途
NMT低リソースデータ合成
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AIリードチームは、進化する攻撃者と防御者に対処するために、継続的対応が必要です。強化学習を使うと、新しい攻撃を探し出すことができ、同時に強化学習を使って防御を強化することもできます。新しいフレームワークAdvGRPOは

強化学習方策勾配 (PPO / A3C)テキスト
用途
攻撃の応答
難易度
Hard
コスト
High
arxivPaper only2026-06-08

What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks

大規模言語モデル(LLM)を運用するコンテンツモデレーションシステムは、有害なオンラインコンテンツを防止するために重要な役割を果たします。しかし、これらのシステムの主な目標は単にトークナイズされたテキストを操作することに

自然言語処理大規模言語モデル分類検出画像
用途
文書の分類
難易度
Hard
コスト
High
arxivPaper only2026-06-08

LargeMonitor: Monitoring Online Task-Free Continual Learning via Large Pretrained Models

オンライン学習の継続学習では、モデルは非駅性データ ストリームから知識を継続的に蓄積する必要があります。モデルのパラメータはトレーニング中に効果的に調整される必要がありますが、パラメータ効率的なプロンプト チューニングや

深層学習軽量化・量子化検出テキストマルチモーダル
用途
オンライン学習の継続学習
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs

最近の研究では、線形プローブを使用して暗示された秘密を内部アクティブ化から回復し、ステラングラフィック侵入の検出を改善しました。しかし、ステラングラフィック侵入を検出し、内部アクティブ化を検知するには、ステラングラフィッ

自然言語処理大規模言語モデル検出テキスト
用途
ステルタグラフィックの侵入検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

この研究では、強化学習のトレーニングに使用するRewardsの検証が難しい場合は、Rewardがグループレベルでは無価値で、グループ間の優劣比較が不可能となる問題に対処するためのReasoning Arenaを提案します

品質予測/異常検知深層学習軽量化・量子化生成テキスト強化学習
用途
強化学習のトレーニング
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

Internalizing Geometric Law: Learning from Solver Residuals for Precision-Critical Generation

自然言語から機械設計や技術図案などの正確な構成を作成することができるシステムを開発しました。このシステムは、Geometric Constraintsを満たす正確な構成を作成するために、Constraint DSL (D

自然言語処理大規模言語モデル生成テキスト
用途
機械設計や技術図案の生成
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。

センサ/時系列深層学習Transformer検出生成埋め込み
用途
パーキンソン病の早期 検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Orange Lab: Lowering Barriers to Data Mining through Embedded Interactive Workflows

この論文では、data mining におけるビジュアルプログラミングフレームワーク、Orange Lab を提唱しました。これにより、Webベースのデータ分析環境を提供し、ユーザーフェイシングの分析ツールとしてデータ分

MI向き自然言語処理ファインチューニング画像テキスト
用途
データ分析フロー
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

The Injection Paradox: Brand-Level Suppression in Safety-Trained LLM Recommendations via RAG Context Injection

この論文では、RAG によって安全に訓練されたLLMに攻撃を加えた結果、RAGによって安全に訓練されたLLMの推論が抑制されることを示しています。これは、RAGによって訓練されたLLMが、推論を抑制するために使われたコン

自然言語処理大規模言語モデルテキスト
用途
LLM の安全な推論
難易度
Hard
コスト
High
arxivPaper only2026-06-08

From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning

理論的思考は、最新の基礎モデルシステムが安全かつ効果的に現実世界で動作するには必須のスキルであると考えられています。しかし、理論的思考の進進には、「ショートカット」問題が存在し、タスクは99%の正解率を達成するのに、ただ

自然言語処理RAGテキストマルチモーダル強化学習
用途
理論的思考の強化問題
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

Beyond FLOPs: Benchmarking Real Inference Acceleration of LLM Pruning under a GEMM-Centric Taxonomy

分析研究は、LLM推論速度を速めるため、トークン、レイヤー、ヘッド、次元、注意パターンの削減技術である削減技術を適用し、広範なパラダイムとして成長しています。削減方法の実装によって、実現された加速の度合いは、ハードウェア

品質予測/異常検知深層学習軽量化・量子化テキスト
用途
LLM推論加速問題
難易度
Hard
コスト
High
arxivPaper only2026-06-08

ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset

LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。

品質予測/異常検知コンピュータビジョン動画認識検出画像テキスト
用途
医学論文執筆のサポート
難易度
Hard
コスト
High
arxivPaper only2026-06-08

ATN3D: Density-Aware LiDAR-Radar Early 3D Object Detection Under Extreme Sparsity

自動運転車やインテリジェント輸送システムなどの自動化された車両の感知には3次元オブジェクト検出が必要です。道路での長距離検出は困難ですが、道路ではこの「長距離」に対する感知と決定の時間は約1-2秒です。2つの主な課題が現

センサ/時系列深層学習Transformer分類検出テキスト
用途
車のデッキの長距離認識に対する3次元オブジェクト検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

LLM間でモデル呼び出しと外部ツールの呼び出しが交互になり、サーバのサーヒングがステートレスの要求処理からステートフルなプログラム実行に移行します。これらのワークロードの評価は、各設計点ごとに専門的なアクセラレータ時間を

自然言語処理大規模言語モデルテキスト
用途
LLMのサーバー処理のためのシミュレータ
難易度
Hard
コスト
High
arxivPaper only2026-06-08

LLM-Orchestrated Conformance Checking in Stroke Care Without Computer-Interpretable Guidelines

医療のガイドラインとの適用を自動的に評価することを目的とするコンフォーマンスチェックフレームワークが開発された。Large Language Models (LLMs) を用いて、コンフォーマンスチェックを実現する。

説明可能自然言語処理大規模言語モデルテキスト
用途
医療におけるガイドラインの適用を支援する
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders

可勉強のターブルの信号に関する表現モデルが、異なるトレーニングパラダイムを持つモデルを評価しやすくする基準であるTRL-Benchを提案している。

表形式向き品質予測/異常検知深層学習軽量化・量子化埋め込みテキスト表形式
用途
可勉強のタブラー信号に対する表現モデルの評価基準を標準化する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

MASS: Deep Research for Social Sciences with Memory-Augmented Social Simulation

Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用して、新しい研究方法を提案し、Social Scienceの研究実現を実現した

品質予測/異常検知深層学習Transformer生成テキスト
用途
Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用した研究の実現
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Steganography Without Modification: Hidden Communication via LLM Seeds

大規模言語モデル(LLM)の推論スタックには、モデルの重み、サンプリングコード、および出力分布を変更することなく、暗号化なしで秘密コミュニケーションを行うステゴグラフィチャンネルが存在する。送信者はシークレットデータを秘

自然言語処理大規模言語モデル生成テキスト
用途
暗号化なし: LLMのシードを使用した秘密のコミュニケーション
難易度
Hard
コスト
High
arxivPaper only2026-06-08

From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs

3次元シミュレーションシーンから知識グラフを構築することが、ロボットのタスク推論に重要な役割を果たすが、シーンのオブジェクトを形式的な分類にマッピングするステップが、現実に現れていない。LLMを使用して、このマッピングの

自然言語処理大規模言語モデルテキスト3D
用途
3次元シミュレーションシーンから知識グラフを構築する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Vision Language Model Helps Private Information De-Identification in Vision Data

ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す

コンピュータビジョン物体検出分類検出画像
用途
ビジョン言語モデルを使用したビジュアルデータのプライバシー保護
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation Challenges

大規模言語モデルのプライバシーリスクについては、既に研究が行われていたが、マルチモデル大規模言語モデル(MLLM)のプライバシーリスクについては、まだ十分に調査されていなかった。MLLMでは、テキストだけでなく画像データ

自然言語処理大規模言語モデル画像テキスト
用途
マルチモデル大規模言語モデルにおけるプライバシーリスク
難易度
Hard
コスト
High
arxivPaper only2026-06-08

A Regret Minimization Framework on Preference Learning in Large Language Models

強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決

自然言語処理大規模言語モデルテキスト強化学習
用途
可能な行動の選択のための意思決定フレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-08

TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

オーディオTokenと文書をモデル化するためにコーデックベースのARトークのジェネレーターが強力な文を音声の質を高めました。しかし、このアプローチでは、音声Tokenのシーケンスはテキストシーケンスより長くなるため、AR

品質予測/異常検知深層学習軽量化・量子化テキスト音声
用途
オーディオTokenの圧縮による話者ジェネレータの効率化
難易度
Hard
コスト
High
arxivPaper only2026-06-08

LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)

LLMがTABULARデータ分析で機能を自動化できるようにした。しかし、標準化されたプラットフォームの欠如は、比較やコスト的評価を行うのを難しくしている。複雑なメソッドの設計により、各コンポーネントの具体的な貢献をはっき

少数データ向き表形式向き自然言語処理大規模言語モデル分類生成回帰
用途
TABULARデータ分析のLLMパラダイムの比較評価
難易度
Hard
コスト
High
arxivPaper only2026-06-08

The Token Not Taken: Sampling, State, and the Variability of AI Agent Outputs

Agentic AIシステムの不確実性が、同じ要求から異なる計画、ツールの呼び出しなどが生成されることを示唆している。このようにしてシステムの信頼性を確保するには、AIエージェントのパラメータを確立することが重要となる。

コンピュータビジョンセグメンテーション生成テキスト
用途
AIエージェントのパラメータの確立に寄与する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連

コンピュータビジョンマルチモーダルQA画像テキスト
用途
統合医療医系のためのLLMベースの医療エージェント
難易度
Hard
コスト
High
arxivPaper only2026-06-08

RTL-BenchLS: A Large-Scale Benchmark for RTL Reasoning and Generation with Large Language Models

LLMベースのRTL生成と推論は、ハードウェア設計自動化の新たな方向を示唆します。しかし、ベンチマークは、大規模化とタスクスコープの制約がある。現存するベンチマークでは、前向きモデルの実績

品質予測/異常検知自然言語処理大規模言語モデル生成テキスト自己教師
用途
RTLリージョニングと生成のための大規模ベンチマーク作成
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

FAME: Forecastability-Aware Mixture of Experts for Heterogeneous Time Series Forecasting

この研究では、複数の時系列予測を合わせたモデルを使用して、個々の時系列の特性を考慮した予測を行うFAMEを提案します。このモデルは、個々の時系列の特性を考慮することで、より正確な予測が可能になります。

表形式向きCPUで試しやすいセンサ/時系列深層学習Transformer予測テキスト時系列
用途
多様な時系列予測
難易度
Easy
コスト
Low
arxivPaper only2026-06-08

Quality-Diversity Search in Sound Generation: Investigating Innovation Engines for Audio Exploration

この研究では、音楽生成における多様性を促進するためのオープンソース・フレームワークを開発します。このフレームワークは、音楽生成における多様性の促進を支援するために、進化的プロセスと多様性促進アルゴリズムを組み合わせたもの

MI向き品質予測/異常検知自然言語処理ファインチューニング分類生成テキスト
用途
音楽生成における多様性の促進
難易度
Hard
コスト
Low
arxivPaper only2026-06-08

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。

自然言語処理大規模言語モデル生成テキスト強化学習
用途
大規模言語モデルの安全性評価
難易度
Hard
コスト
High
arxivPaper only2026-06-08

IS-CoT: Breaking the Long-form Generation Collapse via Interleaved Structural Thinking

この研究では、長文生成モデルの改良を実現するためのフレームワーク、IS-CoT を開発します。このフレームワークは、長文生成モデルの生成性とコントロール性を改善することができます。

品質予測/異常検知自然言語処理大規模言語モデル生成テキスト
用途
長文生成モデルの改良
難易度
Hard
コスト
High
arxivPaper only2026-06-08

PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

この研究では、マルチモーダル言語モデルの評価のためのフレームワークを開発します。このフレームワークは、マルチモーダル言語モデルの生成性とコントロール性を評価することができます。

品質予測/異常検知深層学習軽量化・量子化テキスト
用途
マルチモーダル言語モデルの評価
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

WhisperのようなマルチリンガルASRモデルの音声認識能力をDravidian言語で向上させるために、データセットと言語分析を用い、モデルをフィネチュアリングし、デコーダの不平衡を解消し、音声認識誤差を低減した。

センサ/時系列深層学習Transformerテキスト音声
用途
Dravidian言語の音声認識を改善する
難易度
Hard
コスト
Medium
arxivPaper only2026-06-08

Detecting Differences Is Not Understanding Structure: Large Language Models Fail at Graph Isomorphism

この研究では、大きな言語モデルがグラフの同型性を推論できるかどうか調査し、小さなグラフでは同型性を認識できたものの、シードノードラベルを入れ替えてグラフ同型性を検証した結果、同型性が識別されなかった。

自然言語処理大規模言語モデル検出テキスト
用途
グラフの同型性を推論する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

DECSELFMASK: Leveraging Unlabeled Text via Self-Relevance-Guided Masking for Decoder-Only Classification

予備情報が少ない場合や医療分野などの特定の分野の場合、分類タスクは難しいようになるが、この研究では、モデルが未分類データを操作して、分類モデルの性能を向上させる方法である、DecSelfMaskを提案した。

自然言語処理RAG分類生成テキスト
用途
分類タスクの性能向上
難易度
Hard
コスト
High
arxivPaper only2026-06-08

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ

自然言語処理大規模言語モデル生成テキストマルチモーダル
用途
マルチモーダル記憶の評価
難易度
Hard
コスト
High
arxivPaper only2026-06-08

AbstRAG: Learning to Abstract for Retrieval Problems

この研究では、検索タスクにおける抽象レベルにおけるギャップを解消するためのフレームワークであるAbstRAGを提案し、検索タスクにおけるギャップを解消したことで、モデルが検索タスクにおいて正しく情報を開示した。

品質予測/異常検知自然言語処理RAG生成検索テキスト
用途
リトラバージャグによる検索
難易度
Hard
コスト
Low
arxivGitHubあり2026-06-08

MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models

この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字

品質予測/異常検知自然言語処理大規模言語モデル分類セグメンテーションテキスト
用途
ムルティリンガル辞書のデジタル化
難易度
Hard
コスト
High
githubGitHubあり2026-06-08

mxcp — Model eXecution + Context Protocol: Enterprise-Grade Data-to-AI Infrastructure

データをAIに変換する基盤を構築することで、ビジネス上の問題を解決できます。この研究では、Model eXecution + Context ProtocolであるMXCPを提案し、データの変換を簡素化した上で、AIアプ

自然言語処理大規模言語モデルテキスト
用途
データをAIに変換する基盤を構築することによって、ビジネスを改善する
難易度
Easy
コスト
High
githubGitHubあり2026-06-08

VoxCPM — VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

マルチラギングスピーチ生成やクリエイティブボイスデザイン、ルートライフクライミングなど、テクスチャファリーTTSの最新技術を実現するためのフレームワークです。

生成AI音声・音楽生成生成テキスト音声
用途
マルチラギングスピーチ生成
難易度
Easy
コスト
Medium
githubGitHubあり2026-06-07

presidio — An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。

表形式向き深層学習Transformer分類検出画像
用途
データのプライバシーを保護する
難易度
Easy
コスト
Low
githubGitHubあり2026-06-06

DiT-Extrapolation — Official implementation for "RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers" (ICML 2025) , UltraViCo (ICLR 2026) and UltraImage

分類問題では、多くの場合、ラベルは存在しないため、従来の学習アルゴリズムでは困難に感じられるが、In-Context Multiple Instance Learningという手法を使用することで、低ラベル環境で効率的に

深層学習Transformer生成画像動画
用途
多クラス分類タスク
難易度
Easy
コスト
High
arxivGitHubあり2026-06-05

RhinoVLA Technical Report

この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV

深層学習軽量化・量子化画像テキストマルチモーダル
用途
VLAモデルをedgeハードウェアにデプロイするための手法
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Dash2Sim: Closed-Loop Driving Simulation from in-the-wild Dashcam Videos

この論文では、ドライビングシミュレーションのためのフレームワークを提案しています。このフレームワークは、ドライビングシミュレーションを目的とした機械学習フレームワークです。このフレームワークは、大量のデータを扱う必要があ

センサ/時系列品質予測/異常検知コンピュータビジョン3D・点群生成テキスト動画
用途
ドライビングシミュレーションのためのフレームワーク
難易度
Hard
コスト
High
arxivPaper only2026-06-05

Does Appearance Help? A Systematic Study of Image-Based Re-Identification in Online 3D Multi-Pedestrian Tracking

3D Multi-Object Tracking (MOT)では、人の動きを検出し続けるために、3D点群データから3D人体の姿勢姿勢を推測する必要があり、主に幾何学情報に依存しているが、これは状況によっては人を分別するの

深層学習Transformer検出画像テキスト
用途
3D人間の追跡システムの外観の有用性
難易度
Hard
コスト
High
githubGitHubあり2026-06-05

Causal-Forcing — [ICML 2026] Official codebase for "Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation" & Causal Forcing++

この論文では、Causal-Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive

品質予測/異常検知深層学習軽量化・量子化生成テキスト動画
用途
高品質のビデオ生成を実現する。
難易度
Easy
コスト
High
arxivPaper only2026-06-04

Causal Longitudinal Prior-Fitted Networks for Counterfactual Outcome Prediction

この研究では、対象変数が因果関係を持つタイムシリーズに対してカウンターファクタル予測を扱った。この際、カウンターファクタル予測では対象変数を含む時間系列に対して対象変数に対しての因果効果を推定するが、過去の観測値からこれ

センサ/時系列自然言語処理プロンプトエンジニアリングテキスト時系列
用途
カウンターファクタル予測
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Zero-Copy Semantic Contagion: An In-Memory Streaming Architecture for Evolving Attention Graphs

分析モデルは、特定のアセットを中心とした分析に特化しており、異業連鎖の変動を反映していなかった。そのため、関連企業の注意を考慮し、連続時間グラフを用いて、分析結果をより包括的に表現することができる。

CPUで試しやすいセンサ/時系列深層学習RNN / LSTM予測テキスト時系列
用途
分析結果を連続時間グラフで表示
難易度
Hard
コスト
Low
arxivPaper only2026-06-04

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

HANDOFFは、人間を模倣するロボットの制御を実現するために構築されたフレームワークです。ロボットはタスクを認識し、動作を生成します。HANDOFFは、タスクに合わせて動作を生成するアジエントを形成するために、教師と学

深層学習軽量化・量子化テキスト
用途
人間臭いアジентыのロボット制御を実現
難易度
Hard
コスト
Medium
arxivPaper only2026-06-04

MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

Vision-Language-Action(バブルラボ、VLアクション)ポリシーが長時間予測と高い不確実性の制御で脆弱であることを認識し、VLアクションポリシーが1パスでのアクションデコードのみを提供し、長時間予測のた

品質予測/異常検知自然言語処理プロンプトエンジニアリングテキストマルチモーダル
用途
long-horizonおよびhigh-uncertainty ControlでのVLAポリシーが脆弱である問題に対する解決策。
難易度
Hard
コスト
High
arxivPaper only2026-06-04

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

このリポジトリでは、画像認識モデルにアクション生成能力を付与することを目指したモデルを提案します。このモデルは、画像認識のための事前訓練モデルを用いて、複雑なアクションを生成することができます。

深層学習Transformer検出生成予測
用途
画像認識とアクションの生成
難易度
Hard
コスト
High
arxivPaper only2026-06-04

Towards a Data Flywheel for Embodied Intelligence in Logistics

Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ

コンピュータビジョンマルチモーダル異常検知テキスト動画
用途
ロボットの行動予測に適した空間を構築
難易度
Hard
コスト
High
arxivPaper only2026-06-03

TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness

本論文では、欠損値がある表格型データの欠損補完に関して取り組み、欠損値がないセルと同様に動作するSkipパターン検出と順序性意識のあるdiffusionベースの欠損補完アルゴリズムを提案しました。

表形式向きコンピュータビジョンセグメンテーション検出テキスト表形式
用途
表格型データの欠損補完
難易度
Hard
コスト
High
arxivPaper only2026-06-02

An Asymptotic Theory of Chain-of-Thought in In-Context Learning

この研究は、医療従事者が病気の症状を検出し、診断するのを支援するように設計されています。研究者らは、AIのアルゴリズムを開発し、そのアルゴリズムを臨床試験で検証したところ、AIが医療関係者とほぼ同じレベルの精度で病気の症

自然言語処理大規模言語モデル回帰テキスト
用途
症状の検出と疾患の診断
難易度
Hard
コスト
High
githubGitHubあり2026-05-29

prompt-in-context-learning — Awesome resources for in-context learning and prompt engineering: Mastery of the LLMs such as ChatGPT, GPT-3, and FlanT5, with up-to-date and cutting-edge updates.

このリポジトリはChatGPT、GPT-3、FlanT5などのLLMsの在り方や、in-context learningとprompt engineeringのリソースをまとめたものです。

自然言語処理大規模言語モデルテキスト
用途
LLMマスターへのリソース
難易度
Easy
コスト
High
arxivGitHubあり2026-05-28

PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers

ポーカーはIAの代表的な問題です。しかし、強いエキスパートレベルを達成するために、長時間にわたるトレーニングと解釈が必要とされてきました。LLMを使用すると、トレーニングやソルバーが不要となり、ポーカーをプレイすることが

説明可能自然言語処理大規模言語モデルテキスト
用途
ポーカーゲーム
難易度
Hard
コスト
High
githubGitHubあり2026-05-27

memvid — Memory layer for AI Agents. Replace complex RAG pipelines with a serverless, single-file memory layer. Give your agents instant retrieval and long-term memory.

MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。

自然言語処理大規模言語モデル生成テキスト動画
用途
AIエージェントの記憶を管理する
難易度
Easy
コスト
High
arxivPaper only2026-05-26

Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

強化学習を利用し、LLMを最適化するには、適切なパラメータを選択することが重要です。この研究では、強化学習のパラメータがLLMの性能にどのような影響を与えるかを調査し、パラメータを最適化する方法を提案することを目指す。

自然言語処理大規模言語モデルテキスト
用途
強化学習
難易度
Hard
コスト
High
githubGitHubあり2026-05-24

custom-diffusion — Custom Diffusion: Multi-Concept Customization of Text-to-Image Diffusion (CVPR 2023)

CVPR 2023で発表されたCustom Diffusionは、テキストから画像を生成するプロセスをカスタマイズできるDiffusionモデルです。テキストからイメージを生成する際の要件を設定できるので、画像生成の柔軟

自然言語処理ファインチューニング生成画像テキスト
用途
画像生成のカスタマイズ
難易度
Easy
コスト
High
githubGitHubあり2026-05-22

rasa — 💬 Open source machine learning framework to automate text- and voice-based conversations: NLU, dialogue management, connect to Slack, Facebook, and more - Create chatbots and voice assistants

rasaは、テキストやボイスベースの会話を自動化するオープンソースの機械学習フレームワークです。自然言語理解(NLU)、会話管理、 slackやFacebook等への接続など、幅広い機能を提供しています。

自然言語処理テキスト
用途
チャットボット作成
難易度
Easy
コスト
Medium
arxivPaper only2026-05-21

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

language modelは、現在、novelな環境に一般化することが求められ、推論尺度を伸ばす検索手法であるAlphaEvolveと組み合わせることが求められます。しかし、標準的なparadigmではLLMは、pre

自然言語処理大規模言語モデル生成テキスト
用途
language modelの検索タスクに対応するために多様性を強化する
難易度
Hard
コスト
High
arxivPaper only2026-05-19

What Do Evolutionary Coding Agents Evolve?

コード生成を進化させるために、最近の研究では LLMs と進化する検索を組み合わせて、タスクに特化したフィードバックを使用してコードを生成、編集、そして選択することを実現している。タスクに特化した評価者でのベストスコアは

自然言語処理大規模言語モデルテキスト
用途
コード生成を進化させる問題を解決する
難易度
Hard
コスト
High
arxivGitHubあり2026-05-19

optimize_anything: A Universal API for Optimizing any Text Parameter

LLM(大規模言語モデル)を利用してテキストパラメータを最適化するシステムを提案しました。このシステムは、単一のシステムでさまざまなタスク(単一タスク、複数タスク、未知の入力など)を実行可能でした。また、システムは、最適

自然言語処理大規模言語モデルテキスト
用途
任意のテキストパラメータを最適化することが可能
難易度
Hard
コスト
High
arxivPaper only2026-05-15

Towards Code-Oriented LM Embeddings for Surrogate-Assisted Neural Architecture Search

これは、パフォーマンスの高いモデルサイズの減少を実現するために、Perforated Neural Networkがキーワード検出タスクに適用されていることを検証したり、Edge Impulseで動作するキーワード検出シ

説明可能品質予測/異常検知深層学習軽量化・量子化回帰テキスト
用途
キーワード検出
難易度
Hard
コスト
Low
arxivPaper only2026-05-15

Domain-Independent Game Abstraction using Word Embedding Techniques

ゲームの抽象化を実現する方法を提案した研究は、ゲームを大きくする要因を削減するために役立つ。しかし従来の方法は、別のゲームに応用する際にゲームごとに分析する必要がある。これは、抽象化を一般化するの難しい原因の1つとなる。

自然言語処理埋め込み・検索テキスト
用途
ゲームの抽象化を実現する
難易度
Hard
コスト
Low
arxivGitHubあり2026-05-07

CoupleEvo: Evolving Heuristics for Coupled Optimization Problems Using Large Language Models

CoupleEvoは、大規模言語モデルを活用したカップルの最適化問題の自動ヒューリスティクーデザインアプローチを提案します。3つの進化的調整戦略が提示されます。

品質予測/異常検知自然言語処理大規模言語モデル生成テキスト
用途
カップルの最適化問題を解決する
難易度
Hard
コスト
High