eess.AS」カテゴリーアーカイブ

Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution

要約 音声超解像度 (SSR) は、失われた高周波成分を復元することによって、低 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution はコメントを受け付けていません

Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models

要約 自己教師あり学習 (SSL) の最近の進歩により、話者検証 (SV) にお … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models はコメントを受け付けていません

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training

要約 主流の自動音声認識 (ASR) テクノロジーでは、通常、数百時間から数千時 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training はコメントを受け付けていません

Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT

要約 自己教師付き音声表現学習は、転写されていない音声から意味のある特徴を抽出す … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT はコメントを受け付けていません

Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages

要約 この論文では、Whisper モデルを使用して低リソース言語の自動音声認識 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages はコメントを受け付けていません

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper

要約 この研究では、プロンプトの情報が高性能音声認識モデル Whisper とど … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper はコメントを受け付けていません

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis

要約 オーディオ駆動トーキング ヘッド合成は、提供されたオーディオから本物のよう … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis はコメントを受け付けていません

MusicLIME: Explainable Multimodal Music Understanding

要約 マルチモーダル モデルは、オーディオと歌詞の間の複雑な相互作用を捉えるため … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | MusicLIME: Explainable Multimodal Music Understanding はコメントを受け付けていません

An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems

要約 音声アシスタントなどの対話システムは、複雑で進化する会話にユーザーと関わる … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems はコメントを受け付けていません

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

要約 共同スピーチのジェスチャーはコミュニケーションの基本です。 最近の深層学習 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? はコメントを受け付けていません