cs.SD」カテゴリーアーカイブ

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model はコメントを受け付けていません

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

要約 音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge はコメントを受け付けていません

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming はコメントを受け付けていません

Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods

要約 この論文では、線形および非線形の両方の硬いストリングのダイナミクスをモデル … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, physics.comp-ph | Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods はコメントを受け付けていません

Measuring the Accuracy of Automatic Speech Recognition Solutions

要約 聴覚障害者および聴覚障害者 (DHH) の人々にとって、キャプションは不可 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Measuring the Accuracy of Automatic Speech Recognition Solutions はコメントを受け付けていません

SALSA: Speedy ASR-LLM Synchronous Aggregation

要約 事前トレーニングされた LLM を利用して、特に低リソース言語の ASR … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SALSA: Speedy ASR-LLM Synchronous Aggregation はコメントを受け付けていません

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review はコメントを受け付けていません

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming はコメントを受け付けていません

Easy, Interpretable, Effective: openSMILE for voice deepfake detection

要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Easy, Interpretable, Effective: openSMILE for voice deepfake detection はコメントを受け付けていません

Multi-modal Adversarial Training for Zero-Shot Voice Cloning

要約 与えられたテキストから音声を再構築するようにトレーニングされたテキスト読み … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Multi-modal Adversarial Training for Zero-Shot Voice Cloning はコメントを受け付けていません