screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「LLM」の検索結果
441 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
このリポジトリでは、AIエンジニアリングのためのリソースを提供しています。
音声認識、声活動検出、テキスト処理などを行う、基盤となる音声認識ツールキットを提供する。
このリポジトリでは、私的なAIプラットフォームであるDocGPTを提供しています。
prompts.chatは、コミュニティが共有したChatGPT用のプロンプットを発見・収集できる場所で、無料でオープンソースで提供されている。
rayは、core分布ランタイムとAIライブラリで構成されたAI計算エンジンで、スケーラブルなAI計算をサポートする。
AIを使ったwebスクレイピングツールです。
Rustを使ってモジュラーLLMアプリケーションを構築することができるライブラリです。
AIエージェントを組み立てるためのライブラリ。
Apple Silicon上でLLM推論サービスをシステムエンジニアが作成するチュートリアル。
このリポジトリは大規モデルの無学習に関するリソースをまとめたものです。
セキュリティゲートウェイを提供するクラウドネイティブなプラットフォームです。
デバイス上のLLM推論をXビット量化を使用したもの。
本研究では、生成推奨システムにおけるアイテムIDの構築、調整、生成の手法について、アイテムIDの構築方法を分析しています。
Unsloth Studioは、オープンモデルのトレーニングと実行を支援するWebUIです。このライブラリは、Gemma4、Qwen3.5などのオープンモデルのテストとトレーニングを支援するために使われます。
ARTは、多段強化学習トレーナーです。このトレーナーは、GRPOを使用して、現実世界のタスクに対して、多段強化学習を行うことができます。
OpenRLHFは、Ray上に構築された強化学習フレームワークです。このフレームワークは、PPO、DAPO、REINFORCE++など、様々な強化学習アルゴリズムをサポートしています。
この論文では、LLM を提供するために使用される Mooncake サービス プラットフォームについて説明しています。Mooncakeは、Kimi というリーディングのLLMサービスを提供するサービスです。Kimiは、M
このリポジトリでは、高性能で大規模なベクトルデータベースとベクトル検索エンジンを提供しています。
xtunerは、超大規模MoEモデルを高速にトレーニングするためのトレーニングエンジンです。
このリポジトリでは、AIワークロードを管理するためのシステムであるSkypilotを提供しています。
TensorZeroは、LLMゲートウェイ、オブザーバビリティ、評価、最適化、実験を統一したオープンソースのLLMOpsプラットフォームです。
このリポジトリでは、AIアプリケーションをローカルに実行できるツールキットであるRunAnywhere-sdksを提供しています。
metaflowは、AI/MLシステムを構築・管理・ディプロイするために使用できるプラットフォームです。
マルチモーダルAIに適したオープンレイクハウスフォーマットです。このフォーマットでは、パレットからデータを2行のコードで変換することができ、100倍速くなります。また、ベクトルインデックスやデータバージョニングが可能です
AIエージェントをGoogle Cloudに展開することが可能で、CI/CD、評価、観察など、プロダクションリードテンプレートが事前に用意されています。
flyteは、高度に動的で堅牢なAIオーケストレーションプラットフォームであり、データ、モデル、コンピューティングを統合してAIワークフローを作成することができます。
このリポジトリでは、AIモデルの互換性を確保するためのオープンスタンダードであるONNXを提供しています。
オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。
このリポジトリでは、中文LLaMA & Alpaca LLMsを提供しています。
ドキュメントを構造化するために使えるオープンソースのETLソリューション。
オープンソースのGPT/LLMエージェント作成ツールです。
LLMを利用するために、セマンティック検索やLLMのオーケストレーションなどを行えるフレームワーク。
この論文では、LLM RLの安定性を向上させるために、離散化と重み付けを用いた分散化されたPPOを提案します。また、安定性の向上によって、大規模言語モデルを用いたRLの適用が可能になります。
大規模言語モデル(LLM)を運用するコンテンツモデレーションシステムは、有害なオンラインコンテンツを防止するために重要な役割を果たします。しかし、これらのシステムの主な目標は単にトークナイズされたテキストを操作することに
AutoMegaKernel(AMK)は、Hugging Face Llama-family モデルを単一のパフォーマンスを最適化した CUDA Kernalで動作する単一のPersistent Cooperative
Muon has recently emerged as a state-of-the-art optimizer for pretraining Large Language Models (LLMs) and vis
コード生成を安全かつ信頼できる方法で行うことを目的とした研究。コード生成における不確実性を推定する方法を提案し、コードの解釈可能性と安全性を向上させる。
ラングラージュモデルを解釈するためのアクティベーション分析を提案。モデルを分析することで、モデルがどのようなコードを生成しているかを理解する。
動画大規模言語モデルを使用した質問に対する回答を研究。モデルの能力と限界を調査し、質問に対する答えを生成するための方法を提案した。
ラングラージュモデルを効率的に推論することを目的とした研究。モデルの推論を効率化するために、モデルの深さを自動的に調整する方法を提案した。
Work on `emergent misalignment' shows that finetuning LLMs on narrow tasks can induce broadly misaligned behav
On-Policy Distillation (OPD) has become a core technique in the post-training of Large Language Models (LLMs)
最近の研究では、線形プローブを使用して暗示された秘密を内部アクティブ化から回復し、ステラングラフィック侵入の検出を改善しました。しかし、ステラングラフィック侵入を検出し、内部アクティブ化を検知するには、ステラングラフィッ
この研究では、機械学習モデルをプライバシー保護のための適応化する際、プライバシー保護の実験的な効果を分析することに関与します。
この研究では、強力な防御ガードモデルと低パラメータのLLMを組み合わせたデュアルモデルシステムを導入し、安全なLLMのデプロイに使用できます。
自然言語から機械設計や技術図案などの正確な構成を作成することができるシステムを開発しました。このシステムは、Geometric Constraintsを満たす正確な構成を作成するために、Constraint DSL (D
この論文では、RAG によって安全に訓練されたLLMに攻撃を加えた結果、RAGによって安全に訓練されたLLMの推論が抑制されることを示しています。これは、RAGによって訓練されたLLMが、推論を抑制するために使われたコン
Agentic reinforcement learning (RL) has become an important post-training paradigm for turning LLMs from stati
Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed fo
オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ
分析研究は、LLM推論速度を速めるため、トークン、レイヤー、ヘッド、次元、注意パターンの削減技術である削減技術を適用し、広範なパラダイムとして成長しています。削減方法の実装によって、実現された加速の度合いは、ハードウェア
LLM推論において、長いコンテキストを扱うことが多く、GPUメモリボトルネックの問題が起きます。この課題に対処するために、Neural Memory Indexerと呼ばれる Neural Memory Indexerを
Useful audits reveal not only how often a model fails, but also where its failures concentrate. An auditor may
Clinical early warning systems built on electronic health records, in which clinical observations are recorded
エージェントの安全性を向上するために、ハッカーのフェイクオートを作成して、リスクを評価するための新しいアプローチを提案します。
As LLM agents begin to take real, irreversible actions (shell commands, file edits, deploys), the standard saf
この論文では、Transformer を使用してタスク認識の弱さを検出し、検出精度を向上させる方法を提案する。
この論文では、AI 系統が安全性の検証を容易にするために、新しいフレームワークを提出する。これにより、AI 系統の安全性の評価がより効果的になる。
この論文では、VLM ゲームエージェントの評価基準が提供され、さまざまなタイプのエージェント間の比較が可能になる。
この論文では、コードクオリティを評価し、エラーの発生率を減らすために、Fast Adaptive Semantic Entropy (FASE) を提出する。
この論文では、エージェントの委譲能力を改善するために、新しいフレームワークを提案する。これにより、エージェントがより効率的にタスクを分割できる。
この論文では、分散型エクスキューションの観察性を考慮するために、新しいフレームワークを提案する。これにより、分散型エクスキューションの評価がより効果的に行える。
この論文では、自動化された形式化を提案する。これにより、形式化プロセスがより効率的に行える。
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and op
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
LLM間でモデル呼び出しと外部ツールの呼び出しが交互になり、サーバのサーヒングがステートレスの要求処理からステートフルなプログラム実行に移行します。これらのワークロードの評価は、各設計点ごとに専門的なアクセラレータ時間を
Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multi
Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly evaluated on table reasoning t
AI Scientist agents are often evaluated as if capability were mainly a function of model quality, prompting, o
Two-server secure inference allows a client to query a hosted large language model (LLM) without revealing pro
Tool-using large language model (LLM) agents face two distinct security failures: unauthorized external action
During instruction fine-tuning (IFT), large language models (LLMs) learn to follow instructions by using the p
Can a general-purpose large language model design molecules with the precision of a seasoned chemist? Current
Existing sparse attention and KV cache compression methods for long-context LLM inference typically apply fixe
Objective. Large language models (LLMs) increasingly draft clinical research manuscripts, but their fluency ca
医療のガイドラインとの適用を自動的に評価することを目的とするコンフォーマンスチェックフレームワークが開発された。Large Language Models (LLMs) を用いて、コンフォーマンスチェックを実現する。
LLMエージェントの長期記憶の改善の為に、DCPMと呼ばれる新しい記憶システムが提案され、エージェントの能力が向上する。
スピーチアセスメントを自動化するためのSpeechLLMが提案され、スピーチの質と能力を評価する。
公共の証明と形式数学の論理的推論を実現するTheoremBenchが提案され、LLMsの能力を評価する。
Webエージェントを自動化するためのAliyunConsoleAgentが提案され、ドキュメントの検証とWebエージェントの開発を簡素化する。
RAGプレフィルへの速力向上を目的としたSIFTが提案され、TTFTを短縮し、コストを削減する。
ウェットウェストワーテルマーケティングのインシデント検出を目的としたBayesian Selective Latent Inferenceが提案される。
スキルアジュストの能力獲得を目的としたCapability-Aligned Hierarchical Learningが提案され、LLMsが外部ツールを操作してタスクを実行する能力を獲得する。
科学的視覚推論を目的としたPhysSceneが提案され、物理実験における観測と推論を可能にする。
Tool learning enables LLMs to invoke external tools to accomplish tasks. Prior studies have demonstrated the e
脳-エージェント接続での脳サイン入力を安全に実行できるシステムを提案し、脳サイン入力攻撃を検知することができる。
エンドツーエンドトレーニングによるTTSシステムを提案し、エンドツーエンドトレーニングの利点を確認している。
Social Scienceにおける、Memory-Augmented Social Simulationを利用した深層学習を利用して、新しい研究方法を提案し、Social Scienceの研究実現を実現した
Multilingual safety evaluation of large language models (LLMs) has predominantly relied on direct translation
Safety judges are increasingly deployed to evaluate model outputs against evolving criteria, yet recent meta-e
Diffusion Language Models (DLMs) enable parallel text generation by iteratively denoising a full sequence, off
This paper revisits our pipeline called Syllogistic Evaluation Framework-Common Logic Grammar Construction (SE
大規模言語モデル(LLM)の推論スタックには、モデルの重み、サンプリングコード、および出力分布を変更することなく、暗号化なしで秘密コミュニケーションを行うステゴグラフィチャンネルが存在する。送信者はシークレットデータを秘
3次元シミュレーションシーンから知識グラフを構築することが、ロボットのタスク推論に重要な役割を果たすが、シーンのオブジェクトを形式的な分類にマッピングするステップが、現実に現れていない。LLMを使用して、このマッピングの
大規模言語モデルのプライバシーリスクについては、既に研究が行われていたが、マルチモデル大規模言語モデル(MLLM)のプライバシーリスクについては、まだ十分に調査されていなかった。MLLMでは、テキストだけでなく画像データ
強化学習(RL)では、与えられた問題に対して、正しいアクションを見つけることを目的としたことが多いが、人間のフィードバックから学習する場合、人間の意思決定の選択のための意思決定のフレームワークを構築する必要性から、可否決
訓練データ以外の問題解決を検討したため、新しい評価方法であるexpert-curated rubric-based evaluationを 提案。
科学的アイデア生成には、現実に実現可能な高質のアイデアを必要とするが、この課題を解く方法は不足していたため、新しい方法であるGraph2Ideaを提案。
AIアシスタントを使用
Tool-using LLM agents interact with the world through actions that persist state in artifacts (e.g., workspace
Large language model (LLM) agents now solve complex tasks through long plan-and-execution traces, yet the abil
Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understandi
Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' prefere
Interior permanent magnet synchronous motor (IPMSM) design requires balancing conflicting objectives and multi
LLMを利用したランニングの計画における決定論的安定性を確保するために、SafeRunというフレームワークを提案。LLMと決定論的ソルバーを分離して、安全ルールの厳格な実施を確保。
LLMがTABULARデータ分析で機能を自動化できるようにした。しかし、標準化されたプラットフォームの欠如は、比較やコスト的評価を行うのを難しくしている。複雑なメソッドの設計により、各コンポーネントの具体的な貢献をはっき
連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連
LLMベースのRTL生成と推論は、ハードウェア設計自動化の新たな方向を示唆します。しかし、ベンチマークは、大規模化とタスクスコープの制約がある。現存するベンチマークでは、前向きモデルの実績
Large reasoning models (LRMs) have attracted increasing attention for their ability to solve complex mathemati
Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making i
Large language models (LLMs) are increasingly used for medical summarization, but their outputs can omit medic
Comprehensive estimation of dietary micronutrients from food images could improve clinical nutrition care, but
Clinical diagnosis requires flexible use of multiple reasoning paradigms under incomplete patient information.
Rule-following agents tasked with executing policies and regulations often fail via Silent Scope Omission (SSO
Macro placement is a fundamental step in modern chip physical design, playing a crucial role in determining th
この研究では、大規模言語モデルの安全性を評価するためのフレームワーク、PsychoSafe を開発します。このフレームワークは、大規模言語モデルの安全性を評価し、潜在的なリスクを軽減することができます。
この研究では、長文生成モデルの改良を実現するためのフレームワーク、IS-CoT を開発します。このフレームワークは、長文生成モデルの生成性とコントロール性を改善することができます。
この研究では、マルチモーダル言語モデルの評価のためのフレームワークを開発します。このフレームワークは、マルチモーダル言語モデルの生成性とコントロール性を評価することができます。
Multimodal large language models (MLLMs) achieve strong results on visual reasoning benchmarks, but answer acc
Ensuring the reliability of Large Language Models (LLMs) under distribution drift requires inference-time adap
Court simulation bridges legal education and judicial practice, yet human-based simulations are costly and dif
Writing Individualized Education Programs (IEPs) is a high-labor, knowledge-intensive document burden; English
As AI assistants serve millions of users daily, evaluating user experience (UX) beyond general model capabilit
Recent advances in neural text-to-speech (TTS) and multilingual speech generation have substantially improved
LLMベースのエージェントは、環境と連携するハーネスの設計により動作が形作られるが、これらのハーネスは現状ほぼ人間による設計のみである。この研究では、LLMベースのエージェントがハーネスを自ら改善できるメカニズムであるS
この研究では、大きな言語モデルがグラフの同型性を推論できるかどうか調査し、小さなグラフでは同型性を認識できたものの、シードノードラベルを入れ替えてグラフ同型性を検証した結果、同型性が識別されなかった。
大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
Large language model agents increasingly rely on skills: reusable procedural documents encoding workflows, too
As large language models (LLMs) are increasingly applied to real-world legal tasks, evaluating the reliability
Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are incre
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Large language models have been widely evaluated as simulators of individual survey responses. In practice, ho
Large Language Models fail at implicit multi-hop reasoning: a model answers "When was $X$ born?" and "Who is $
Fine-tuned Large Language Models (LLMs) dominate in Ukrainian grammatical error correction (GEC), while API-ac
We present TruthSplit, an interactive system for multi-perspective argument analysis. Existing argumentation t
Understanding and reasoning over abstract visual content remains a challenge for current multi-modal large lan
Chinese discriminatory-language detection is challenging because harmful intent is often implicit and context-
The emergence of reasoning multimodal large language models (MLLMs), which generate explicit chain-of-thought
Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web na
Social highlighters let people mark passages that matter to them. We ask how much of an individual is recovera
LLMs are increasingly used to simulate human survey responses, but prior work has mainly evaluated replication
Retrieval-augmented generation (RAG) systems often serialize user queries, retrieved documents, metadata, syst
Large language models (LLMs) sometimes exhibit language confusion when generating non-English text. Existing a
Reinforcement Learning from Human Feedback (RLHF) has significantly improved the quality and fluency of large
Large-scale document processing requires contextually aware table extraction (TE) that is both accurate and ef
Text-driven indoor scene generation and editing require an intermediate representation that language models ca
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal
Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making s
Multi-modal Large Language Models (MLLMs) have achieved remarkable progress in video temporal grounding with r
We present our submission to the CVPR 2026 Argoverse 2 Scenario Mining Challenge. Our system uses a four-stage
Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (
Most existing multi-exposure HDR methods follow a fixed feed-forward reconstruction paradigm, making them pron
このリポジトリには、LLM、RAG、およびオーソリティの認識を含む、AIエンジニアリングのための深いドキュメントがあります。
データをAIに変換する基盤を構築することで、ビジネス上の問題を解決できます。この研究では、Model eXecution + Context ProtocolであるMXCPを提案し、データの変換を簡素化した上で、AIアプ
Ludwigは、LLM (Large Language Model) のカスタム化と構築のための低コストフレームワークです。このフレームワークは、ユーザーがカスタム LLM を構築し、トレーニングするのを容易にします。
PyTorchベースのリージョニングLMMを作成するためのチュートリアルです。
OpenAIに互換性があり、Cloud APIとして利用できるLLM。
LLMのマージに関してのマニュアルです。理論、方法、応用などについての概要が記載されています。
LLMやVLMのFine-Tuningを簡素化したライブラリ。
Predicting the effect of an unseen gene knockout perturbation on transcriptomic gene expression remains a high
Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for eliciting long-ch
Reinforcement Learning (RL) has emerged as a pivotal post-training paradigm, yet it frequently suffers from un
Simulation plays a key role in automated robotics research supported by large language models (LLMs). However,
Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it h
Counterfactual recourse aims to provide actionable feature changes that would alter an unfavorable decision ma
Activation steering has emerged as a popular inference-time technique for modulating the behavior of large lan
Prefill-decode (PD) disaggregation decouples prompt processing from token generation, but it also turns the ke
Long-horizon maritime trajectory prediction is important for shipping management, logistics planning, and mari
Recently, large time series models (LTSMs) have gained increasing attention due to their similarities to large
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversati
Large language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produ
Tensor networks provide efficient representations for compressing large neural networks. By carefully designin
Optimizing large language models (LLMs) for long-horizon caregiver agents requires balancing delayed task obje
This paper examines the limitations of fully digital and partially digital e-assessment approaches in summativ
Text-to-image diffusion models are increasingly deployed in open-ended creative contexts, yet their outputs re
Code generation models are typically compared using compact execution benchmarks and aggregate pass rates, but
Large language models (LLMs) increasingly perform multi-step reasoning, where intermediate claims form implici
Artificial Intelligence (AI) and Large Language Models (LLMs) are increasingly used in autonomous software tes
In high-stakes settings such as brand compliance, clinical care, and content moderation, machine learning cann
We study the problem of auditing a black-box algorithmic decision-maker from observable inputs and outputs alo
Autonomous agents negotiate, purchase, deploy code, and move funds, but no neutral mechanism determines whethe
Automatic evaluation is critical for high-stakes text generation, where errors often involve omitted findings,
W4A4 quantization promises full utilization of INT4 Tensor Cores, yet group dequantization overhead on CUDA Co
Modernization of legacy scientific codes is often necessary to keep up with the ever-evolving changes in the c
Real-world LLM applications are moving beyond single-agent workflows toward orchestrated multi-agent systems,
The rapid rise in LLM capabilities has made AI agents increasingly viable across a broad range of tasks. Among
Expert writing feedback from experienced researchers is critical for early-career scholars to improve their ma
Large language models are rapicly replacing search engines as the primary interface between people and informa
Skill-augmented reinforcement learning improves language agents by storing reusable procedural knowledge acqui
Symbolic music evaluation for large language models remains fragmented across representations, datasets, and m
We present a method for automatic Chinese web neologism detection that operationalizes traditional linguistic
Hallucinations -- factually incorrect or unverifiable outputs -- remain one of the most challenging limitation
AI coding assistants have significantly improved developer productivity by automatically suggesting code that
Large language model (LLM) agents are increasingly deployed in long-running settings where improving through e
To interpret context correctly and retrieve relevant information, large language models must bind entities to
As Large Language Models (LLMs) advance toward open-ended autonomous agents, the mechanisms used to evaluate a
We present a multilingual fact-checking system deployed at Factiverse, designed for high-throughput and low-la
Purpose - Quotation error refers to the inconsistency between cited information and its original source. This
Transformer language models process input provided as subword fragments, but natural language semantics usuall
Building Information Modeling (BIM) projects require information requirements to be described as machine-check
Published agent capability scores conflate what a model can do with what its scaffold lets it do, and the magn
As Russia's war against Ukraine extends into generative AI, large language models (LLMs) adapted for local pos
Reinforcement learning (RL) holds immense promise for enhancing the reasoning capabilities of diffusion large
Although Sparse Autoencoders (SAEs) have mitigated the opacity of large language models (LLMs) by decomposing
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Activation steering provides a lightweight inference-time mechanism for controlling large language models (LLM
Safety-aligned large language models often exhibit sycophancy, which is the tendency to affirm users' opinions
Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternative
Graduate-level research reading report assessment creates a substantial labor burden for educators. While larg
Large language models answer knowledge-intensive questions using both parametric memory and retrieved evidence
Large language models (LLMs) are increasingly released and deployed through opaque development and deployment
Achieving fully automated, physically plausible 3D motion synthesis is a core objective in graphics and genera
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For
Multimodal Large Language Models (MLLMs) face a significant inference bottleneck due to the quadratic computat
Despite the impressive capabilities of text-to-image (T2I) models, an intent-generation gap often persists due
Chain-of-thought (CoT) reasoning has proven effective for enhancing problem-solving in large language models.
Palmprint modality offers a privacy-preserving biometric solution, yet its deployment is hindered by the domai
While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertio
While large language models (LLMs) offer promising reasoning capabilities, their integration into safety-criti
Proactive robot assistance in household environments requires accurate prediction of human activities and obje
On-policy distillation (OPD) has become a central post-training tool for large language models (LLMs), providi
分析システムの性能を向上するための学習モデル開発を行う。
LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harne
Modern language models represent text using discrete token-level embeddings, which forces recurring multi-toke
Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving the reasoni
Computational mental health research has predominantly centered on English-speaking populations, leaving Arabi
Tabular data is a primary medium for storing real-world information, driving many industrial applications of m
Simulating patients with large language models (LLMs) is a promising tool for mental health training, but exis
Text-to-SQL translates natural language into executable SQL queries. Few-shot in-context learning methods buil
Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the re
As large language models are increasingly deployed in high-stakes settings, there is a growing need for tools
Large Language Models (LLMs) have significantly propelled the advancement of edge intelligence and have been w
Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified fra
Large language models (LLMs) can generate factually inconsistent claims, motivating accurate and scalable hall
Large language models (LLMs) frequently generate hallucinations, which are unsupported by a source document. T
Multilingual LLM-as-a-judge is widely used to evaluate model outputs across languages, but suffers from cross-
Reinforcement Learning from Verifiable Rewards (RLVR) has recently become a key paradigm for improving the rea
Repeated reference games test whether interlocutors replace their initially long descriptions with shorter, pa
Rubric-based evaluation is a promising paradigm for judging large language model (LLM) outputs, yet self-gener
Large Language Models (LLMs) can generate high-quality arguments, yet their ability to engage in nuanced and p
Reliable evaluation of large language models in surgery remains underdeveloped. Broad medical benchmarks test
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evide
Large language models (LLMs) are increasingly used in academic research workflows, but scholarly tasks require
Sentence segmentation in Arabic is challenging due to ambiguous and inconsistent punctuation, with many texts
Although directly prompting off-the-shelf Large Language Models (LLMs) to generate meaning-preserving source r
The progress of large language models (LLMs) has fueled claims that model-generated summaries rival or even su
Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining
Understanding customer shopping trajectories is essential for enabling personalized shopping experiences. Howe
Understanding where LLMs store factual knowledge is critical for hallucination mitigation. We systematically q
Current open-weight large language models (LLMs) are prone to malicious finetuning attacks, which could compro
Gender bias in AI-generated stories is a well-documented problem. While much attention has been paid to reduci
Debiasing methods based on principal component analysis (PCA) are broadly used to reduce gender bias in word e
Backdoor attacks in large language models (LLMs) are often treated as isolated trigger-response failures, moti
Humans increasingly turn to Language Models (LMs) in ways that shape beliefs and drive decisions, including di
Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format expos
Human evaluation plays a critical role in assessing the quality of generated text. However, the reliability an
Large language models (LLMs) have shown promise in code summarization, yet their effectiveness for Hardware De
This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via Multimo
Modern large language model (LLM) agents can use external tools to help users solve complex tasks. However, fo
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Flexible robotic automation requires systems that interpret operator intent, verify physical feasibility, and
Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation
Existing scientific relation extraction benchmarks mainly target domains such as computer science, where entit
大規模言語モデルのテスト時間調整に関する調査のリポジトリ。
AIエージェントの開発と実装を行うためのエンドツーマンド、コードファーストのチュートリアル。
Dagsterは、データアセットの開発、生産、観察を支援するオーケストレーションプラットフォームです。
医学画像に対する疾患検出モデルを開発し、臨床現場で早期検出と迅速な介入を容易にすることを目的としたフレームワークを提案します。
この論文では、LLM APIを連携するための選択ツールであるPandora's Boxモデルを提案しています。Pandora's Boxモデルは、複数のLLM APIから生成した出力を評価するためのツールとなります。出力
Adapting large language models (LLMs) to clinical workflows often requires costly fine-tuning or manual prompt
LLM-based coding agents sometimes acknowledge a problem in their own reasoning and then proceed anyway. We cal
Large language models are increasingly used for social decision-making situations that require balancing cultu
Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most
Modern prediction markets face two limitations that restrict their applicability in a range of settings:~(i)~t
We present SigmaScale, a method for learning auxiliary scaling matrices S to aid truncated Singular Value Deco
Large language models exhibit impressive zero-shot capabilities across a wide range of downstream tasks. Howev
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
LLM-driven software engineering agents have become a central testbed for real-world language-model capability,
Retrieval for search agents is still inherited from non-agentic information retrieval: a retriever ranks the c
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, r
Developers increasingly use AI tools such as ChatGPT, Copilot, and Claude in everyday software workflows, but
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream ev
LLMを評価するプラットフォームであり、さまざまなモデルとデータセットをサポートする。
NestJSベースのAIチャットボット開発ツールです。
ペアのトポロジー的な距離に関する制約を満たすための統一的なトポロジーコーラムを開発しました。これにより、トポロジー的な距離の精度を向上でき、信頼できる結果として得られることができました。
この論文では、強化学習において抽象化をどのように行うかについて研究した。提案された手法は、問題解決の粒度をダイナミックに調節し、学習がスムーズになり、精度が向上することを示した。
この研究では、ヒューマノイドロボットのロコマニパションのための MotionDisco を提案し、ロボットは接触を検出して自律的に行動することができるようになります。
この研究では、人間-ロボット 協力のためのDistributed Conversational Frameworkを提案します。
Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills i
Retrieval-augmented QA pipelines often route retrieved passages through an LLM rewriter before a smaller reade
Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputa
Self-evolving agents requires adaptation after deployment, but existing approaches assume a usable learning lo
Existing benchmarks evaluate Tool-Integrated Reasoning (TIR) in LLMs on idealized ''happy paths'', largely ove
We introduce UnpredictaBench, an evaluation that tests the ability of large language models (LLMs) to capture
While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning a
Causal graphs provide a high-level language for making mechanisms transparent. Recent work uses Large Language
In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existin
Planning for real-world problems by language models often involves both world and user constraints, which may
Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs i
Prior work has shown that large language models (LLMs) can translate unseen or low-resource languages by under
Large language model (LLM) agents are increasingly applied to long-horizon tasks such as scientific discovery
Large language models can reproduce training data, but existing memorization evaluations mostly measure whethe
Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predo
Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the
Video event prediction (VEP) requires models to infer unobserved future states from partial video evidence. Ex
Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, r
Large language models are increasingly used to simulate social media users and infer how individuals may respo
Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit
A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want
AI research often requires decisions before future evidence exists: which bottleneck to attack, which directio
Large Language Models (LLMs)を高速化するためには、Transformerの構造を改善する必要があります。この研究では、早期・中期のTransformer層を繰り返し使用することで、Langua
この研究では、マルコフ決定過程の最適な意思決定 (Markov Decision Process) を提案しており、最適な意思決定を動的で適応的に生成する。
LLMが人の信頼性を判断することを研究し、大量のテキストから特徴を抽出した特定の構造を提案する
LLMがプログラムを変換する際の動態学を調査し、変換は収束し、制限された吸引領域に収束することが多いことを示す。
Large language models are increasingly evaluated by other models, raising a natural question: can a model pred
Experience internalization converts contextual experience from past interactions into reusable parametric capa
Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rub
Multi-agent reasoning systems adopt a "generate-then-transfer" paradigm that forces end-to-end latency to scal
Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, runn
Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific
Training Data Attribution (TDA) seeks to trace a model's predictions back to its training data. The gold stand
Large language models (LLMs) are increasingly proposed as clinical agents, yet static, single-turn benchmarks
Instruction-guided speech editing requires a model to modify specified speech attributes while preserving unre
LLMs can appear cautious in risk decision-making tasks, yet cautious-looking outputs do not necessarily indica
この論文では、RAG、AIパイプライン、企業検索を含むクラウド テンプレートを提供するアプリケーション「llm-app」を紹介します。 llm-app は Docker で動作し、Sharepoint、Google Dr
このリストは、金融市場で使用できる強化言語モデル(LLM)と深層学習の戦略やツールに関するawesomeリストです。
モデルをサービングするためのライブラリを紹介している。
Large Language Models remain plagued by hallucinations. Recent work has sought to tame their prevalence using
この研究は、医療従事者が病気の症状を検出し、診断するのを支援するように設計されています。研究者らは、AIのアルゴリズムを開発し、そのアルゴリズムを臨床試験で検証したところ、AIが医療関係者とほぼ同じレベルの精度で病気の症
This study examines whether standard matching mechanisms function as intended in LLM-agent markets, where LLM
Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning
Equipping Large Language Models (LLMs) to execute reliable multi-step workflows has become a central challenge
While household robots are often evaluated based on task completion, everyday domestic environments involve va
Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet
Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science.
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous
Memory is an indispensable capability for long-horizon LLM agents, enabling them to preserve and utilize infor
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the re
Structured financial audit verification is difficult for language-model agents because correctness depends on
Computer-use agents extend language models from text generation to sustained interaction with files, terminals
Large language model (LLM) agents are evolving from request-response assistants into long-running software act
Graph Language Models (GLMs) have become a promising direction for adapting Large Language Models (LLMs) to gr
Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spe
この研究では、COVID-19臨床パスウェイズの予測監視を支援するために、パイプラインを構築しました。このパイプラインには、データリフティング、時間的再構成、イベントログの構築、プリフィックスベースの表現、予測モデルの整
Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet t
Recent leaderboard-based evaluations of large language models aggregate user feedback by fitting a Bradley--Te
LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execut
Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, off
Financial AI agents often fail for a simple reason: they make users carry the complexity. A user must repeated
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existin
Agentic LLMs with web search change the threat model for text anonymization: weak contextual cues can become c
Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answe
このライブラリは、空間情報を扱うためのコンピュータビジョンライブラリです。
Summarize group chat with AI, LLM && query group chat, FREE to deploy your own, support img, link meta info, r
このリポジトリでは、Lecture Learning Modelsに対してReinforcement Learningを実行するライブラリを提供しています。
Periodic target updates in Q-learning and soft target updates in actor-critic methods are empirically well est
Large language models are increasingly deployed as advisors whose objective is not aligned with the user's: re
An influential paper of Calvano et al. empirically demonstrated that Q-learning agents spontaneously collude w
Large language models are increasingly deployed as coding agents, shifting safety from individual responses to
The rapid progress of frontier large language models has led to widespread benchmark saturation, limiting the
この論文では、Large Language Model (LLM) の「データミックス診断」手法を提案し、LLM の診断に役立つ新しい手法であることを示しました。この手法により、LLM のデータミックスを分析し、問題を特
home-llmは、ローカルLIMを使ってスマートホームの制御を可能にするHome Assistantの統合モデルです。
さまざまなLLMのゲートウェイとして使えるライブラリ。
このリポジトリでは、高スループットと低メモリ消費のLLMインフェレンザエンジンであるVLLMを提供しています。
Open-dLLMはOpen diffusion language modelを公開しており、コード生成の前トレーニング、評価、推論、チェックポイントを公開しています。
Modern Machine Learning (ML) and Artificial Intelligence (AI) models, especially large language models (LLMs),
Safety alignment in LLMs does not improve monotonically across model generations. Studying four generations of
Current approaches to LLM adversarial testing suffer from coverage gaps: manual red-teaming does not scale, LL
Reinforcement learning with verifiable rewards has rapidly advanced reasoning in vision--language models. Howe
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genui
The emergence of specialized, domain-tuned Large Language Models (LLMs) has demonstrated that smaller models c
In this work we study agents in simulated bargaining scenarios, where a buyer and a seller communicate through
We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predic
Prompt-injection detectors are heterogeneous: each is strong on a different slice of attacks, and none is alwa
Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the
このリポジトリはChatGPT、GPT-3、FlanT5などのLLMsの在り方や、in-context learningとprompt engineeringのリソースをまとめたものです。
この論文では、Reinforcement Learning with Human Feedback (RLHF) を元にしたPaLMアーキテクチャの実装を提示します。基本的にChatGPTのようなLLMですが、PaLMと
LoMoは、画像とテキストの両方から情報を取り入れるモデルを作成するために、画像変換後のテキストをモデル内で使用できるようにすることで、ビジョンや言語の間の境界を越える能力を強化します。
LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combi
ポーカーはIAの代表的な問題です。しかし、強いエキスパートレベルを達成するために、長時間にわたるトレーニングと解釈が必要とされてきました。LLMを使用すると、トレーニングやソルバーが不要となり、ポーカーをプレイすることが
次世代LLMモデルの協力性に影響を与える要因について調査した。ChatGPT-4oとClaude 3.5 Sonnetは共通の協力性を持っていたが、提供元は違いだった。
AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capabilit
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly impo
Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajector
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction hist
Weight-space model merging is usually formulated as an algebraic operation on checkpoints, yet at LLM scale th
DEFault++は、Transformerアーキテクチャでの内部コンポーネントの不正常な動作を認識するために、3つのレベルでハイエラルキーの学習ベースの診断手法を実装しました。
MemVidは、サーバーレスで単一ファイルの記憶層を提案し、AIエージェントが即時検索と長期的な記憶を持つようにする記憶層です。
強化学習を利用し、LLMを最適化するには、適切なパラメータを選択することが重要です。この研究では、強化学習のパラメータがLLMの性能にどのような影響を与えるかを調査し、パラメータを最適化する方法を提案することを目指す。
Frontier LLM agents engage in blackmail, sabotage, and document leaks under goal conflicts in agentic settings
We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework tha
LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However,
エージェントRRLに関連するアワーショットリスト。
Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple eva
微舆は人人可用的多Agent舆情分析助手であり、情報茧房を打破して舆情の原貌を還元し、未来の走向を予測し、決策を助けることができます。
このリポジトリは、大模型の算法原理图を100本以上収録しています。これは、"大模型算法"著者の巨献です。
PaddleNLPは、分類モデルと言語モデルを簡単に使用できる強力なライブラリであり、モデルズーという素晴らしいモデル・ザーのコレクションを備えています。
この論文では、大規模言語モデルに戦略的推論を評価する方法を提案します。
language modelは、現在、novelな環境に一般化することが求められ、推論尺度を伸ばす検索手法であるAlphaEvolveと組み合わせることが求められます。しかし、標準的なparadigmではLLMは、pre
LLMに先行する存在としての人間の優位性を研究し、コロニエル・ブロットー・ゲームの一種であるColonel Blotto Tournamentで、人間がLLMに勝ったことが知られている。
自動変換により、モデルはテスト時に計算量を最適化し、難しいステップでより多く計算すると同時に、簡単なステップでより少ない計算を実行します。
An awesome & curated list of best LLMOps tools for developers
LLMを使用して、自然言語処理における情報抽出を行うためのPythonライブラリです。
コード生成を進化させるために、最近の研究では LLMs と進化する検索を組み合わせて、タスクに特化したフィードバックを使用してコードを生成、編集、そして選択することを実現している。タスクに特化した評価者でのベストスコアは
LLM(大規模言語モデル)を利用してテキストパラメータを最適化するシステムを提案しました。このシステムは、単一のシステムでさまざまなタスク(単一タスク、複数タスク、未知の入力など)を実行可能でした。また、システムは、最適
Multimodal large language models often generate reasoning chains containing subtle errors that lead to incorre
Personalized pricing negotiations are a challenging testbed for LLM agents because successful interaction does
LLMモデリングのチュートリアルです。インフェレンスタイム、フィネチュニング、RAGなど、さまざまな機能とサービスの使用方法が解説されています。
A comprehensive toolkit that provides building blocks for LLM-based named entity recognition, attribute extrac
Large language models (LLMs) achieve strong performance across a wide range of tasks but are highly sensitive
Despite recent progress in constructing generalizable parallel algorithm portfolios (PAPs), no general-purpose
ゲームにおけるAIツールの不正利用を検出、防止するための中間フォームゲームにおける水印技術の開発
(この項は、MiniOneRec — Minimal reproduction of OneRecのリポジトリで説明しているため、このリポジトリは削除しました)
多分類パラメーターを扱うためのタイプ-実現した共進化の方法を提案し、この方法が実
Negotiation is a central mechanism of economic exchange, shaping markets, procurement, labor agreements, and r
Advances in large language models (LLMs) have recently opened new and promising avenues for small-molecule dru
Model merging has emerged as a cost-effective alternative to training large language models (LLMs) from scratc
We propose graph-grounded optimization: a paradigm in which the decision variables, constraints, and objective
マルチエージェントシステムのゲーム理論的枠組みを構築し、エキサイタブルの理論的基盤を提供することを目指しています。
人間的抽象化を推定するための新たなアプローチを提案し、未知のタスクを効率的に学習することができます。
Generative AI models differ from traditional machine learning tools in that they allow users to provide as muc
What happens when the strongest alliance member pressures a weaker member over territory and strategic control
Large Language Models exhibit mode collapse, producing homogeneous outputs that fail to explore valid solution
Gradient-based preference optimization methods for large language model (LLM) alignment suffer from preference
LLM-guided evolutionary methods such as AlphaEvolve have proven effective in domains like math, systems resear
We introduce Evolutionary Ensemble (EvE), a decentralized framework that organizes existing, highly capable co
We present ARES-LSHADE, a memetic differential-evolution variant submitted to the GECCO 2026 competition on LL
Automatic heuristic design (AHD) has emerged as a promising paradigm for solving NP-hard combinatorial optimiz
インスタテストタスクの推論を高速化するために、スケーリングを適用して、推論時間を短縮することができる。
Generating high-performance GPU kernels remains challenging due to the need for both correctness and hardware-
A hallmark of life on Earth is the ability of agents to exert causal power and be drivers of subsequent events
CoupleEvoは、大規模言語モデルを活用したカップルの最適化問題の自動ヒューリスティクーデザインアプローチを提案します。3つの進化的調整戦略が提示されます。
Speech-based large language models are typically constrained to spoken replies, which limits their user-facing