audio」の検索結果

41
arxivPaper only2026-06-08

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。

センサ/時系列深層学習Transformer検出生成埋め込み
用途
パーキンソン病の早期 検出
難易度
Hard
コスト
High
arxivPaper only2026-06-08

TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

オーディオTokenと文書をモデル化するためにコーデックベースのARトークのジェネレーターが強力な文を音声の質を高めました。しかし、このアプローチでは、音声Tokenのシーケンスはテキストシーケンスより長くなるため、AR

品質予測/異常検知深層学習軽量化・量子化テキスト音声
用途
オーディオTokenの圧縮による話者ジェネレータの効率化
難易度
Hard
コスト
High
arxivPaper only2026-06-08

Quality-Diversity Search in Sound Generation: Investigating Innovation Engines for Audio Exploration

この研究では、音楽生成における多様性を促進するためのオープンソース・フレームワークを開発します。このフレームワークは、音楽生成における多様性の促進を支援するために、進化的プロセスと多様性促進アルゴリズムを組み合わせたもの

MI向き品質予測/異常検知自然言語処理ファインチューニング分類生成テキスト
用途
音楽生成における多様性の促進
難易度
Hard
コスト
Low
arxivPaper only2026-06-08

Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

WhisperのようなマルチリンガルASRモデルの音声認識能力をDravidian言語で向上させるために、データセットと言語分析を用い、モデルをフィネチュアリングし、デコーダの不平衡を解消し、音声認識誤差を低減した。

センサ/時系列深層学習Transformerテキスト音声
用途
Dravidian言語の音声認識を改善する
難易度
Hard
コスト
Medium