Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism
この研究では、Tensor ParallelismとFully Sharded Data Parallelism技術を利用して、GPU メモリ限界のある従来の検証アーキテクチャの制約を解いて、機械学習ネットワークの検証を
- 用途
- 予測ネットワークの検証
- 難易度
- Hard
- コスト
- High
「audio」の検索結果
41 件この研究では、Tensor ParallelismとFully Sharded Data Parallelism技術を利用して、GPU メモリ限界のある従来の検証アーキテクチャの制約を解いて、機械学習ネットワークの検証を
この研究では、テキスト、画像、ビデオ、アウディオ等の異なるモダリティのデータを統合したオムニモダル検索システムを構築します。
パーキンソン病(PD)の早期検出への取り組みとして、脳の損傷が発症前に生じる話術障害を分析するため、音声分析を用いてパーキンソン病の診断を提唱しています。
In the task of few-shot class-incremental audio classification, the number of classes is assumed to always inc
この論文では、スピーカーセパレーションを改善するために、新しいフレームワークを提案する。これにより、スピーカーセパレーションの精度が向上する。
スピーチアセスメントを自動化するためのSpeechLLMが提案され、スピーチの質と能力を評価する。
Body movement communicates intent at distances and in conditions where neither the face, nor speech can be cap
可変化の帯域幅を考慮した、聴覚超材料の逆設計における新しいフレームワークである Physics-Guided Sequence-Based Generative Framework for Acoustic Metama
エンドツーエンドトレーニングによるTTSシステムを提案し、エンドツーエンドトレーニングの利点を確認している。
Removing intermediate representations and separately trained decoding stages has become an important direction
オーディオTokenと文書をモデル化するためにコーデックベースのARトークのジェネレーターが強力な文を音声の質を高めました。しかし、このアプローチでは、音声Tokenのシーケンスはテキストシーケンスより長くなるため、AR
この研究では、音楽生成における多様性を促進するためのオープンソース・フレームワークを開発します。このフレームワークは、音楽生成における多様性の促進を支援するために、進化的プロセスと多様性促進アルゴリズムを組み合わせたもの
この研究では、静黙の口承のシンセシスを実現するためのフレームワークを開発します。このフレームワークは、静黙の口承のシンセシスと精度を改善することができます。
Recent advances in neural text-to-speech (TTS) and multilingual speech generation have substantially improved
WhisperのようなマルチリンガルASRモデルの音声認識能力をDravidian言語で向上させるために、データセットと言語分析を用い、モデルをフィネチュアリングし、デコーダの不平衡を解消し、音声認識誤差を低減した。
Social robots must interact robustly not only with users assumed by speech-centered systems but also with dive
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating c
Nüshu is an endangered phonetic script historically used by women in Jiangyong County, southern Hunan, China.
The fidelity and structural diversity of training datasets fundamentally determine the capabilities of video g
Clinical ultrasound images often contain artificial markers, such as measurement calipers and text, to assist
We present a voice conversion (VC) framework that utilizes K-Nearest Neighbors (KNN) retrieval over WavLM repr
The analysis of internet memes in the Nepali language is complicated by frequent code-mixing and a lack of est
Sophisticated generative speech technology can undermined the reliability of voice biometrics. While spoofing
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversati
Autonomous agents negotiate, purchase, deploy code, and move funds, but no neutral mechanism determines whethe
We present HydraQE, our contribution to the IWSLT 2026 Speech Translation Metrics shared task. HydraQE is an e
Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-sy
Current advancements in Audio Reasoning rely on massive Large Audio-Language Models (LALMs), hindering deploym
Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternative
While Omni-modal Large Language Models (OLLMs) have demonstrated impressive capabilities in jointly processing
We study causal discovery from observational data when some variables are hidden and the data-generating proce
Automated stuttering detection (ASD) systems struggle with paediatric speech due to high acoustic variability
Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified fra
Recent agent frameworks such as Claude Code, Codex, and OpenClaw are strong at tool use and orchestration, but
この研究では、実際のアカウシック現象を考慮して、3Dソナー シミュレーションを改善するモジュラー構成を提案します。
Watermarking methods for language models have been studied extensively in the autoregressive setting, where to
We present a single classification pipeline that combines an Equiangular Tight Frame (ETF) preprocessing stage
Deep learning has greatly advanced automatic speech recognition (ASR), enabling widespread deployment on edge
We present a deep photonic neural network architecture based on ultrafast binary optical modulation from a dig
We propose a scalable neuromorphic architecture based on spiking dynamics emerging from the autonomous time-co
Spike-based encodings are sparse and energy-efficient, but have largely been formulated probabilistically, dis