cs.SD」カテゴリーアーカイブ

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

要約 音声処理Universal Performance Benchmark(S … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ML-SUPERB: Multilingual Speech Universal PERformance Benchmark はコメントを受け付けていません

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond

要約 2023年の多言語スピーチユニバーサルパフォーマンスベンチマーク(ML-S … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond はコメントを受け付けていません

Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

要約 この論文では、音楽のSTEMの回復のタスクに取り組みます。 ミュージカルミ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures はコメントを受け付けていません

Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation

要約 言語の多様性は、自動音声認識や翻訳など、音声からテキスト(S2T)タスクに … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation はコメントを受け付けていません

Reverb: Open-Source ASR and Diarization from Rev

要約 今日、私たちは非営利的な使用のためのコア音声認識とダイアリ化化モデルをオー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Reverb: Open-Source ASR and Diarization from Rev はコメントを受け付けていません

Everyday Speech in the Indian Subcontinent

要約 インドには1369の言語があり、そのうち22は公式です。 これらの言語を表 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Everyday Speech in the Indian Subcontinent はコメントを受け付けていません

KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation

要約 生成されたオーディオ信号の評価に広く採用されていますが、FR \ &#82 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation はコメントを受け付けていません

WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models

要約 検索拡張生成(RAG)は、大規模な言語モデル(LLM)に外部知識を統合でき … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません