screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「audio」の検索結果
77 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
mediapipeは、クロスプラットフォームでカスタマイズ可能なライブおよびストリーミングメディア向けのMLソリューションを提供している。
.diffusion モデルのライブラリ。画像・動画・音声生成に利用可能。
AI用のデータセットを提供するプラットフォームです。
オープンソースのAI推論最適化と展開用ツールキットです。
Unsloth Studioは、オープンモデルのトレーニングと実行を支援するWebUIです。このライブラリは、Gemma4、Qwen3.5などのオープンモデルのテストとトレーニングを支援するために使われます。
デベロッパー向けのモデロプティミゼーションフレームワークです。モデルの高速化と効率化を実現することができます。
電気生理信号から表現を学習し、脳コンピューターインターフェースの開発を支援する。
この研究では、自然言語処理の負担を減らすモジュラリティを目指しています。モジュラリティとは、システムを小さくて独立した部分に分割して、それぞれを簡素化することです。この研究では、文脈に応じてモジュラリティを変更できるメカ
テキスト分析、センチメント分析や単語分割などを行えるライブラリ。
ModelScopeは、モデルをサービス化するためのプラットフォームです。モデルを作成し、ホスティングし、管理し、配信することができます。
この研究では、Tensor ParallelismとFully Sharded Data Parallelism技術を利用して、GPU メモリ限界のある従来の検証アーキテクチャの制約を解いて、機械学習ネットワークの検証を
この研究では、テキスト、画像、ビデオ、アウディオ等の異なるモダリティのデータを統合したオムニモダル検索システムを構築します。
パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。
In the task of few-shot class-incremental audio classification, the number of classes is assumed to always inc
この論文では、スピーカーセパレーションを改善するために、新しいフレームワークを提案する。これにより、スピーカーセパレーションの精度が向上する。
スピーチアセスメントを自動化するためのSpeechLLMが提案され、スピーチの質と能力を評価する。
Body movement communicates intent at distances and in conditions where neither the face, nor speech can be cap
可変化の帯域幅を考慮した、聴覚超材料の逆設計における新しいフレームワークである Physics-Guided Sequence-Based Generative Framework for Acoustic Metama
エンドツーエンドトレーニングによるTTSシステムを提案し、エンドツーエンドトレーニングの利点を確認している。
Removing intermediate representations and separately trained decoding stages has become an important direction
オーディオTokenと文書をモデル化するためにコーデックベースのARトークのジェネレーターが強力な文を音声の質を高めました。しかし、このアプローチでは、音声Tokenのシーケンスはテキストシーケンスより長くなるため、AR
この研究では、音楽生成における多様性を促進するためのオープンソース・フレームワークを開発します。このフレームワークは、音楽生成における多様性の促進を支援するために、進化的プロセスと多様性促進アルゴリズムを組み合わせたもの
この研究では、静黙の口承のシンセシスを実現するためのフレームワークを開発します。このフレームワークは、静黙の口承のシンセシスと精度を改善することができます。
Recent advances in neural text-to-speech (TTS) and multilingual speech generation have substantially improved
WhisperのようなマルチリンガルASRモデルの音声認識能力をDravidian言語で向上させるために、データセットと言語分析を用い、モデルをフィネチュアリングし、デコーダの不平衡を解消し、音声認識誤差を低減した。
Social robots must interact robustly not only with users assumed by speech-centered systems but also with dive
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Nüshu is an endangered phonetic script historically used by women in Jiangyong County, southern Hunan, China.
The fidelity and structural diversity of training datasets fundamentally determine the capabilities of video g
Clinical ultrasound images often contain artificial markers, such as measurement calipers and text, to assist
マルチラギングスピーチ生成やクリエイティブボイスデザイン、ルートライフクライミングなど、テクスチャファリーTTSの最新技術を実現するためのフレームワークです。
We present a voice conversion (VC) framework that utilizes K-Nearest Neighbors (KNN) retrieval over WavLM repr
The analysis of internet memes in the Nepali language is complicated by frequent code-mixing and a lack of est
Sophisticated generative speech technology can undermined the reliability of voice biometrics. While spoofing
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversati
Autonomous agents negotiate, purchase, deploy code, and move funds, but no neutral mechanism determines whethe
We present HydraQE, our contribution to the IWSLT 2026 Speech Translation Metrics shared task. HydraQE is an e
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Current advancements in Audio Reasoning rely on massive Large Audio-Language Models (LALMs), hindering deploym
Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternative
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
画像やビデオやオーディオディフュージョンモデルのファインチューニングを行うための、汎用的なファインチューニングキット。
We study causal discovery from observational data when some variables are hidden and the data-generating proce
Automated stuttering detection (ASD) systems struggle with paediatric speech due to high acoustic variability
Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified fra
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generate
Understanding what generative models retain from training data remains challenging, with implications for copy
We introduce MMAE, a Massive Multitask Audio Editing benchmark, serving as the first comprehensive evaluation
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research move
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that model
Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the
Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical conve
この研究では、実際のアカウシック現象を考慮して、3Dソナー シミュレーションを改善するモジュラー構成を提案します。
Automatic Speech Recognition (ASR) has become a key technology for human--AI interaction. However, code-switch
Emotion-driven Style Controlを使用してテキストから声の変換が実行され、感情のあるテキストをエモタイザブルな声に変換することが可能になります。
Watermarking methods for language models have been studied extensively in the autoregressive setting, where to
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and
Instruction-guided speech editing requires a model to modify specified speech attributes while preserving unre
We present a single classification pipeline that combines an Equiangular Tight Frame (ETF) preprocessing stage
We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, i
Deep learning has greatly advanced automatic speech recognition (ASR), enabling widespread deployment on edge
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genui
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (
Diffusion models have emerged as the backbone of modern generative AI, powering advances in vision, language,
We present a deep photonic neural network architecture based on ultrafast binary optical modulation from a dig
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly impo
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction hist
Weight-space model merging is usually formulated as an algebraic operation on checkpoints, yet at LLM scale th
OpenFrameworksは、C++で構築されたクロスプラットフォームのツールキットで、クリエイティブコーディングのために使われます。このライブラリは、各種のデバイス上でプログラムを動作させることを容易にします。
Matcha-TTSは、高速で条件付き流のマッチングを実現するTTSアーキテクチャであり、話者の特徴を考慮する。
We propose a scalable neuromorphic architecture based on spiking dynamics emerging from the autonomous time-co
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。
Spike-based encodings are sparse and energy-efficient, but have largely been formulated probabilistically, dis
Speech-based large language models are typically constrained to spoken replies, which limits their user-facing