screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「multimodal」の検索結果
62 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
データをロギング・ストーリング・クエリして視覚化できるSDKです。
SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。
xtunerは、超大規模MoEモデルを高速にトレーニングするためのトレーニングエンジンです。
マルチモーダルAIに適したオープンレイクハウスフォーマットです。このフォーマットでは、パレットからデータを2行のコードで変換することができ、100倍速くなります。また、ベクトルインデックスやデータバージョニングが可能です
このリポジトリでは、AIモデルの互換性を確保するためのオープンスタンダードであるONNXを提供しています。
オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。
オンポリシーディストリレーションは、近年、重要なポストトレーニングの研究分野となりました。強い教師モデルを使用して学習トレッジを密に細かく指示することで、トピック認識を実現します。しかしなだな的にトークンレベルにおいてデ
この研究では、低リソース言語や絶滅言語の辞書のデジタル化が重要であるが、マルチモーダル辞書をデジタル化する方法は今まで難しかったが、この研究では、最近のビジョン言語モデルを用いて辞書のデジタル化が容易になり、辞書内の文字
Reasoning Vision-Language Models (VLMs) achieve strong performance on complex multimodal tasks, but reliable r
Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it h
Temporary work-zone speed limits are communicated through visually inconsistent signage and are often missing
We present BLUE, a minimal method for better language use in vision-language-action (VLA) models for autonomou
Chain-of-thought (CoT) reasoning has proven effective for enhancing problem-solving in large language models.
World action models inherit the predictive capability of world models, enabling action generation to be guided
Vision-Language-Action (VLA) models achieve strong benchmark performance but still struggle in real-world depl
分析システムの性能を向上するための学習モデル開発を行う。
Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet the
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション
この論文では、VLAモデルをedgeハードウェアにデプロイするための手法を提案しています。この手法は、VLAモデルをedgeハードウェアにデプロイするためのフレームワークです。この手法は、edgeハードウェアを利用してV
この論文では、ロボットの制御を学習するための、新しいモデルの提案であるactionmapを提示しました。
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
Despite advances in 3D scene understanding, existing 3D Large Multimodal Models operate in offline settings, r
基礎モデルの前処理を行うためのライブラリ。最小限でシームレスにスケールできる。
この研究では、人間-ロボット 協力のためのDistributed Conversational Frameworkを提案します。
Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of ineffi
Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vis
While Vision-Language Models (VLMs) have shown strong visual reasoning capabilities, their spatial reasoning a
Despite the rapid progress of Vision-Language Models (VLMs), the field lacks benchmarks that rigorously diagno
In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existin
Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs i
Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, r
Large language models are increasingly used to simulate social media users and infer how individuals may respo
Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit
Vision language models (VLMs) excel at many tasks but still struggle with spatial reasoning when critical info
Processing video in vision-language models is expensive: each frame occupies hundreds of tokens, and inference
Learning representations of CAD models is a largely open problem. While 3D representation learning has flouris
Lane-level maps are critical infrastructure for autonomous driving and lane-level navigation, yet constructing
モデルをサービングするためのライブラリを紹介している。
3D vision has rapidly evolved, driven by increasingly diverse data representations, learning paradigms, and mo
Selection is a core operation in interactive image editing. To be practical, a user should be able to specify
In robotics systems, vast amounts of visual data are easily captured at high resolution using low-cost, low-po
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous
Wide-baseline matching (WBM) requires integrating geometric understanding, viewpoint changes, fine-grained per
Graph Language Models (GLMs) have become a promising direction for adapting Large Language Models (LLMs) to gr
Existing autonomous driving datasets have enabled major progress, but fall short in sensor fidelity, map compl
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existin
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. Ho
このリポジトリには、CVPR 2026で発表されたポスター生成ツール「PosterGen」の公式リポジトリが含まれます。
Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question
Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relatio
While current multimodal models are proficient at open-ended visual editing, executing precise single-answer e
AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capabilit
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction hist
We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision b
Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce nume
自動変換により、モデルはテスト時に計算量を最適化し、難しいステップでより多く計算すると同時に、簡単なステップでより少ない計算を実行します。
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。