screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「multimodal」の検索結果
200 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
データをロギング・ストーリング・クエリして視覚化できるSDKです。
SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。
xtunerは、超大規模MoEモデルを高速にトレーニングするためのトレーニングエンジンです。
マルチモーダルAIに適したオープンレイクハウスフォーマットです。このフォーマットでは、パレットからデータを2行のコードで変換することができ、100倍速くなります。また、ベクトルインデックスやデータバージョニングが可能です
このリポジトリでは、AIモデルの互換性を確保するためのオープンスタンダードであるONNXを提供しています。
オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。
この研究では、脳部帯域内のニューロンが同じ反応プロファイルを持つと仮定し、近接な脳部帯域内のニューロンの反応プロファイルを推論し、分野間の結合を特定しました。
Vision-Language-Action (VLA) models have demonstrated impressive end-to-end performance across a variety of ro
Alzheimer's disease (AD) progression is highly heterogeneous and is typically observed through sparse and irre
Foundation models (FMs) are increasingly used as backbones for downstream tasks across language, vision, time-
Vision-language-action (VLA) policies provide strong priors for language-conditioned manipulation, but remain
動画大規模言語モデルを使用した質問に対する回答を研究。モデルの能力と限界を調査し、質問に対する答えを生成するための方法を提案した。
オンライン学習の継続学習では、モデルは非駅性データ ストリームから知識を継続的に蓄積する必要があります。モデルのパラメータはトレーニング中に効果的に調整される必要がありますが、パラメータ効率的なプロンプト チューニングや
この研究では、ゼロショット セマンティック再特定の基準を設定し、画像のセマンティック特定を自動化します。
Multimodal federated graph learning (MM-FGL) aims to collaboratively learn from decentralized graphs with text
パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。
この論文では、VideoQA が過度に信憑性の
Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed fo
Video retrieval at scale is central to data curation and safety validation in autonomous driving, where users
理論的思考は、最新の基礎モデルシステムが安全かつ効果的に現実世界で動作するには必須のスキルであると考えられています。しかし、理論的思考の進進には、「ショートカット」問題が存在し、タスクは99%の正解率を達成するのに、ただ
オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ
Two-stage post-training -- a Stage-1 warm-start (supervised fine-tuning, SFT, or on-policy distillation, OPD)
Post-training quantization (PTQ) converts a trained full-precision model into low-bit weights without task-lev
ワールドアクションモデルを高速化するために、情報のキャッシュと伝達を提案します。
この論文では、VLM ゲームエージェントの評価基準が提供され、さまざまなタイプのエージェント間の比較が可能になる。
Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and op
LLMを用いた臨床研究論文の草案作成を支援するために、生成されたテキストを検証するためのアーキテクチャを設計。これにより、虚偽の citaion、数字の不正確な記録、およびガイドライン違反が防がれます。
自動運転車やインテリジェント輸送システムなどの自動化された車両の感知には3次元オブジェクト検出が必要です。道路での長距離検出は困難ですが、道路ではこの「長距離」に対する感知と決定の時間は約1-2秒です。2つの主な課題が現
Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multi
Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly evaluated on table reasoning t
Vision-language-action models have shown strong promise for robot manipulation, yet raw language is primarily
マテリアルの非破壊検査を目的としたContext-Aware Deep Learningが提案され、エアロックの欠陥を検出する。
ボディポーズ認識と行動解釈を目的としたReal-time body pose non-verbal communicationが提案され、人間の動作を認識して行動を解釈する。
In recent years, unified multimodal models (UMMs) have emerged to support both understanding and generation wi
ビジュアル言語モデル(VLM)は、プライバシー保護において有効性の高い能力をもつ。しかし、視覚データを扱う際のプライバシーリスクについては、それまでほとんど注目されていなかった。VLMを使用して、プライバシー保護を確保す
Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' prefere
連続的な治療に適した臨床級LLM医系であるBaichuan-M4を導入。臨床的な医療エージェントシステムであるBaichuan-M4は、統合的な医療エージェントシステムをベースとし、医療エージェントと医療エージェントの連
Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making i
Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning ov
Comprehensive estimation of dietary micronutrients from food images could improve clinical nutrition care, but
Semiconductor lithography inspection requires reliable detection of small pattern defects such as bridge, burr
Spinal pathology is a leading cause of pain and disability worldwide. Spine MRI is central to clinical evaluat
この研究では、静黙の口承のシンセシスを実現するためのフレームワークを開発します。このフレームワークは、静黙の口承のシンセシスと精度を改善することができます。
Multimodal large language models (MLLMs) achieve strong results on visual reasoning benchmarks, but answer acc
人間は危機時に移動パターンやメディアの投稿のパターンが変化し、分析が難しいようになった。この研究では、運動データやメディアデータの統合を用いて危機時の行動パターンを分析し、危機の状況における行動を予測した。
大きな言語モデルには記憶や推論機能があるが、ユーザーとの対話におけるこれらの機能の効果はまだ理解されているわけではない。これを受け、この研究では、人間の相互作用、特に会話における記憶と推論能力を評価するためのマルチモーダ
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
危機管理では、コミュニケーションと地理
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Multimodal affective analysis aims to understand human sentiment and emotion by jointly modeling heterogeneous
The emergence of reasoning multimodal large language models (MLLMs), which generate explicit chain-of-thought
LLMs are increasingly used to simulate human survey responses, but prior work has mainly evaluated replication
We introduce ChinaHeritaQA, a multimodal benchmark dataset for evaluating the cultural reasoning abilities of
Reasoning Vision-Language Models (VLMs) achieve strong performance on complex multimodal tasks, but reliable r
Temporal modeling is essential for robotic manipulation, as effective control requires both memory of past int
Text-driven indoor scene generation and editing require an intermediate representation that language models ca
The state-of-the-art generative models, such as CycleGAN, Pix2Pix, and diffusion models have demonstrated rema
Eye movements, including saccades, are widely regarded as highly sensitive and objective biomarkers of neuroph
Biochemical recurrence (BCR) after radical prostatectomy is a critical endpoint in prostate cancer, yet risk s
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a crit
Open-domain open-vocabulary detection (ODOVD) requires detectors to generalize to both novel categories and un
Synthetic aperture radar (SAR)-assisted optical cloud removal aims to recover surface information obscured by
The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal
In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Ch
Strabismus is a common ocular disorder that requires fine-grained subtype diagnosis for individualized treatme
Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (
Multimodal 3D object detection based on LiDAR and cameras has demonstrated excellent performance in ground-veh
Most existing multi-exposure HDR methods follow a fixed feed-forward reconstruction paradigm, making them pron
Vision-Language-Action models face significant challenges in real-world deployment due to the entanglement of
Worldwide image geo-localization aims to determine the capture location of an image on a global scale. Existin
In many binary segmentation tasks, most multimodal methods rely on fixed feature concatenation for cross-modal
Vision-Language-Action (VLA) models demonstrate strong perfor-1 mance on language-conditioned robotic manipula
Vision-Language-Action (VLA) models have become a powerful framework for robotic manipulation, and recent stud
Vision-language-action (VLA) policies can deviate from nominal trajectories during manipulation, even when tas
World Action Models (WAMs) couple a video dynamics prior to the policy and have shown encouraging results on t
Inference-Time Scaling (ITS) has largely succeeded in verifiable domains like math and coding, where cheap ver
Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it h
Action-supervised fine-tuning of vision-language-action (VLA) policies fits demonstrations effectively but con
We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuou
Vision-Language-Action (VLA) models have demonstrated strong generalization in robotic manipulation, yet exist
Urban public transport disruptions require rapid response strategies, yet existing studies rarely provide a de
We present HydraQE, our contribution to the IWSLT 2026 Speech Translation Metrics shared task. HydraQE is an e
Vision-Language Models (VLMs) are increasingly required to process unbounded video streams in applications suc
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Multimodal language models are typically evaluated through external behavior: selecting the correct image--tex
Temporary work-zone speed limits are communicated through visually inconsistent signage and are often missing
Effective visuo-tactile integration is critical for robotic dexterous manipulation, especially when visual obs
Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective paradigm for improving the reaso
Achieving fully automated, physically plausible 3D motion synthesis is a core objective in graphics and genera
We present BLUE, a minimal method for better language use in vision-language-action (VLA) models for autonomou
The rapid advancement of generative models has blurred the boundary between synthetic and real imagery, creati
Facial Expression Recognition (FER) has advanced rapidly over the last decade, driven by the shift from handcr
Emotional Video Captioning (EVC) is a challenging task that aims to generate factually accurate and emotionall
Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For
Reward models play a pivotal role in reinforcement learning (RL) and multi-modal trajectory selection for auto
Multimodal Large Language Models (MLLMs) face a significant inference bottleneck due to the quadratic computat
Humanoid robots require whole-body motions that adapt to scene context, task requirements, and user intent. Mo
Despite the impressive capabilities of text-to-image (T2I) models, an intent-generation gap often persists due
Chain-of-thought (CoT) reasoning has proven effective for enhancing problem-solving in large language models.
Robotic grasping is a fundamental capability in robotic manipulation. Yet grasping remains challenging under p
Vision-language models (VLMs) pretrained on large-scale image-text pairs demonstrate strong image-level unders
Diffusion models have become a powerful tool for generative modeling in robotics, with diffusion policies exce
World action models inherit the predictive capability of world models, enabling action generation to be guided
Robots deployed in human-centric environments routinely receive natural-language descriptions of spatial infor
Vision-Language-Action (VLA) models achieve strong benchmark performance but still struggle in real-world depl
Vision-language models (VLMs) are powerful general-purpose reasoners, yet converting them into robot control p
While large language models (LLMs) offer promising reasoning capabilities, their integration into safety-criti
分析システムの性能を向上するための学習モデル開発を行う。
Compositional priors describe the generic properties of layered functions in deep Bayesian models, where deep
Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the re
Enabling robots to understand and execute tasks from natural language commands while maintaining data efficien
Repeated reference games test whether interlocutors replace their initially long descriptions with shorter, pa
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via Multimo
While multimodal integration significantly improves computer vision models, deploying them incurs prohibitive
Recent advances in Diffusion Transformers have driven rapid progress in video generation and editing, yet thes
Test-time Scaling (TTS) has emerged as a pivotal research direction for enhancing model performance by dynamic
Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified
Vision-language models (VLMs) enable visual recognition from semantic class descriptions, which makes them att
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Vision-language-action (VLA) models increasingly condition robot policies on history, depth, or 4D features to
Humanoid foundation models are advancing faster than we can evaluate them. While real-world testing is expensi
With the evolution of large foundation models (LFMs), data-driven autonomous driving has made significant stri
Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation
We propose Q-Guided Value-Gradient Matching (Q-VGM), an off-policy reinforcement learning (RL) method that tac
ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション
We analyze the two combinatorial problems of Dominating Set and Vertex Coloring regarding what kind of local o
Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction ov
Open-vocabulary long-horizon manipulation requires robots to reason over flexible instructions and complex mul
この論文では、ロボット制御の新しい表現方法であるSpline Policy(SP)を提案した。SPは、行動を spline で表現することで、行動をより詳細かつ柔軟に表現することができた。
この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV
この研究では、自然言語指示を実行するためにもっと実際的なエンベロイメントにおいて、視覚言語航行 (VLN) の問題に対処します。従来の 3 つのステージのアプローチは、目的地に到達するのを困難な場所や、計画と制御間の矛盾
Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling ge
この論文では、視覚言語行動モデルの改良を実現した。Coarse-to-Controlは、行動に必要な計画の空間を大幅に縮小し、行動の計画を実現するための新しいフレーム
Visual-language action (VLA) models enable robots to predict actions directly from observations and language i
World Action Models (WAMs) offer a promising approach to embodied intelligence, yet existing methods rely heav
We argue that high-quality motion data can steer tracking policies toward better optimization trajectories ear
この論文では、ロボットの制御を学習するための、新しいモデルの提案であるactionmapを提示しました。
VLNベンチマークでは、ディシクリットな操作や粗い操作が使われ、UAVのヴィジョンラングジュアクション(VLJ)タスクでは短い操作が中心で、長時間飛行に対応できるfineグラINEDUAVナビゲーション(FLIGHT)ベ
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, r
基礎モデルの前処理を行うためのライブラリ。最小限でシームレスにスケールできる。
この研究では、複数のドメインの複雑なデータを分析するために、Bayesian モデルを使用して因果関係を分析するツールを開発します。主に社会調査に使用できるツールです。
この研究では、ロボット操作のスピードの可変性を扱いました。この研究で提案したTempoVLAは、スピードの変化を可能にする強化学習モデルです。
この研究では、フェスタースター自動運
Vision-Language-Action(バブルラボ、VLアクション)ポリシーが長時間予測と高い不確実性の制御で脆弱であることを認識し、VLアクションポリシーが1パスでのアクションデコードのみを提供し、長時間予測のた
このリポジトリでは、画像認識モデルにアクション生成能力を付与することを目指したモデルを提案します。このモデルは、画像認識のための事前訓練モデルを用いて、複雑なアクションを生成することができます。
この研究では、人間-ロボット 協力のためのDistributed Conversational Frameworkを提案します。
この研究では、L-SDPPO という方法を提案します。これは、連携型ロボット Manipulation に向けたディフュージョン ポリシーの最適化を実現するものです。
Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations,
統合された視覚言語アクションモデルを提案し、これを用いたタスクの性能を向上させることができるようになる。
Open-vocabulary 3D functionality segmentation enables robots to localize functional object components in 3D sc
Autonomous drivingでは、ロボットが視覚認識した情報に基づいて行動を決定する必要があるが、過去のデータで構築された空間モデルでは、ロボットの行動を予測することが困難であるため、空間モデルを構築することによ
Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of ineffi
Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vis
While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning a
Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagno
In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existin
Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs i
Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, r
Large language models are increasingly used to simulate social media users and infer how individuals may respo
Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit
この研究では、個人の意思決定に対する効率的な解析 (Worker Utility) を提案しており、個人の意思決定を効率的に解析し、それを活用する。
Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical info
Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference
Learning representations of CAD models is a largely open problem. While 3D representation learning has flouris
Lane-level maps are critical infrastructure for autonomous driving and lane-level navigation, yet constructing
モデルをサービングするためのライブラリを紹介している。
We develop a quantitative approximation framework for diffusion distillation, viewing few-step sampling as err
The discovery rate of fast radio bursts (FRBs) continues to increase with the advent of new radio facilities a
Modeling interactions among multimodal, high-dimensional data is intrinsically challenging due to ultra-high d
3D vision has rapidly evolved, driven by increasingly diverse data representations, learning paradigms, and mo
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify
In robotics systems, vast amounts of visual data are easily captured at high resolution using low-cost, low-po
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
Graph Language Models (GLMs) have become a promising direction for adapting Large Language Models (LLMs) to gr
Implicit-process priors define distributions over functions through flexible generative mechanisms, making the
Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map compl
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existin
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. Ho
このリポジトリには、CVPR 2026で発表されたポスター生成ツール「PosterGen」の公式リポジトリが含まれます。
Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question
Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relatio
While current multimodal models are proficient at open-ended visual editing, executing precise single-answer e
AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capabilit
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction hist
We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision b
Evolutionary systems have demonstrated remarkable results in creative domains, with recent applications in gen
Marine plankton underpin aquatic food webs and play a key role in global CO2 sequestration, making reliable sp
Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce nume
自動変換により、モデルはテスト時に計算量を最適化し、難しいステップでより多く計算すると同時に、簡単なステップでより少ない計算を実行します。
部門間の競争では、評価に基づいて候補者を選択する必要があることが多い。しかし、これまでのランダムな選択メカニズムは、候補の中で微妙な差異のあるデータの不均衡を考慮していなかった。これにより、安定性が低くなる。そのため、今
Multimodal large language models often generate reasoning chains containing subtle errors that lead to incorre
Multimodal optimization requires finding many optima rather than merely keeping a diverse population. Yet most
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。