「eess.AS」カテゴリーアーカイブ

Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages

投稿日: 2024年11月8日作成者: jarxiv

要約この論文では、OpenAI の Whisper モデルを使用して、低リソー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Pre-Finetuning for Few-Shot Emotional Speech Recognition

投稿日: 2024年11月8日作成者: jarxiv

要約音声モデルは、多くの分類タスクに対して個々の話者を過剰適合させることが長い … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

投稿日: 2024年11月8日作成者: jarxiv

要約咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

投稿日: 2024年11月7日作成者: jarxiv

要約最近、単一の統合モデルを使用してさまざまなオーディオタスクに同時に取り組 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward

投稿日: 2024年11月7日作成者: jarxiv

要約最近の研究では、音声基盤エンコーダと大規模言語モデル (LLM) の間の線 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT

投稿日: 2024年11月7日作成者: jarxiv

要約スピーチは、人間として自分自身を表現する最も自然な方法です。感情自体の定 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

投稿日: 2024年11月7日作成者: jarxiv

要約この論文では、テーブルトップロールプレイングゲーム (TRPG) の … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

Universal Sound Separation with Self-Supervised Audio Masked Autoencoder

投稿日: 2024年11月7日作成者: jarxiv

要約ユニバーサルサウンドセパレーション (USS) は、任意の音源の混合物 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features

投稿日: 2024年11月6日作成者: jarxiv

要約周波数によって変化する音響パラメータを推定することは、現実的な空間オーディ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Towards Deep Active Learning in Avian Bioacoustics

投稿日: 2024年11月6日作成者: jarxiv

要約鳥類の生体音響における受動音響モニタリング (PAM) により、自然の生息 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages

Pre-Finetuning for Few-Shot Emotional Speech Recognition

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward

Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT

Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

Universal Sound Separation with Self-Supervised Audio Masked Autoencoder

Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features

Towards Deep Active Learning in Avian Bioacoustics

最近の投稿

最近のコメント

アーカイブ

カテゴリー