eess.AS」カテゴリーアーカイブ

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding はコメントを受け付けていません

Estimating Musical Surprisal in Audio

要約 計算手法を使用して音楽の驚きの期待をモデル化する際に、自己回帰モデルからの … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Estimating Musical Surprisal in Audio はコメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | The Sound of Water: Inferring Physical Properties from Pouring Liquids はコメントを受け付けていません

Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing

要約 自己教師あり学習 (SSL) 基盤モデルは、幅広いタスクに適用できる強力で … 続きを読む

カテゴリー: cs.LG, eess.AS | Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing はコメントを受け付けていません

MARS6: A Small and Robust Hierarchical-Codec Text-to-Speech Model

要約 コーデックベースの Text-to-Speech (TTS) モデルは、ゼ … 続きを読む

カテゴリー: cs.CL, eess.AS | MARS6: A Small and Robust Hierarchical-Codec Text-to-Speech Model はコメントを受け付けていません

Towards Early Prediction of Self-Supervised Speech Model Performance

要約 自己教師あり学習 (SSL) では、事前トレーニングと評価にリソースが大量 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards Early Prediction of Self-Supervised Speech Model Performance はコメントを受け付けていません

Benchmarking Rotary Position Embeddings for Automatic Speech Recognition

要約 Rotary Position Embedding (RoPE) は、シー … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | Benchmarking Rotary Position Embeddings for Automatic Speech Recognition はコメントを受け付けていません

xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement

要約 Conformers などのアテンションベースのアーキテクチャは音声強調に … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement はコメントを受け付けていません

FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching

要約 オーディオの超解像度は、その不適切な性質により困難を伴います。 最近、オー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching はコメントを受け付けていません

VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

要約 音声ベースの対話モデルの開発に対する需要が高まる中、エンドツーエンドの音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models はコメントを受け付けていません