screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「audio」の検索結果
39 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
mediapipeは、クロスプラットフォームでカスタマイズ可能なライブおよびストリーミングメディア向けのMLソリューションを提供している。
.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。
AI用のデータセットを提供するプラットフォームです。
オープンソースのAI推論最適化と展開用ツールキットです。
Unsloth Studioは、オープンモデルのトレーニングと実行を支援するWebUIです。このライブラリは、Gemma4、Qwen3.5などのオープンモデルのテストとトレーニングを支援するために使われます。
デベロッパー向けのモデロプティミゼーションフレームワークです。モデルの高速化と効率化を実現することができます。
電気生理信号から表現を学習し、脳コンピューターインターフェースの開発を支援する。
この研究では、自然言語処理の負担を減らすモジュラリティを目指しています。モジュラリティとは、システムを小さくて独立した部分に分割して、それぞれを簡素化することです。この研究では、文脈に応じてモジュラリティを変更できるメカ
テキスト分析、センチメント分析や単語分割などを行えるライブラリ。
ModelScopeは、モデルをサービス化するためのプラットフォームです。モデルを作成し、ホスティングし、管理し、配信することができます。
In the task of few-shot class-incremental audio classification, the number of classes is assumed to always inc
Clinical ultrasound images often contain artificial markers, such as measurement calipers and text, to assist
マルチラギングスピーチ生成やクリエイティブボイスデザイン、ルートライフクライミングなど、テクスチャファリーTTSの最新技術を実現するためのフレームワークです。
画像やビデオやオーディオディフュージョンモデルのファインチューニングを行うための、汎用的なファインチューニングキット。
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generate
Understanding what generative models retain from training data remains challenging, with implications for copy
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that model
Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical conve
Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switch
Emotion-driven Style Controlを使用してテキストから声の変換が実行され、感情のあるテキストをエモタイザブルな声に変換することが可能になります。
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and
Instruction-guided speech editing requires a model to modify specified speech attributes while preserving unre
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genui
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (
Diffusion models have emerged as the backbone of modern generative AI, powering advances in vision, language,
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly impo
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction hist
Weight-space model merging is usually formulated as an algebraic operation on checkpoints, yet at LLM scale th
OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。
Matcha-TTSは、高速で条件付き流のマッチングを実現するTTSアーキテクチャであり、話者の特徴を考慮する。
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。
Speech-based large language models are typically constrained to spoken replies, which limits their user-facing