eess.AS」カテゴリーアーカイブ

Electroencephalogram-based Multi-class Decoding of Attended Speakers’ Direction with Audio Spatial Spectrum

要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントする

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics

要約 テキストと音声で促される大規模言語モデル (LLM) は、スピーチ、音楽、 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

Tell What You Hear From What You See — Video to Audio Generation Through Text

要約 ビジュアル シーンとオーディオ シーンのコンテンツは多面的であり、ビデオと … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS | コメントする

Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages

要約 この論文では、OpenAI の Whisper モデルを使用して、低リソー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages はコメントを受け付けていません

Pre-Finetuning for Few-Shot Emotional Speech Recognition

要約 音声モデルは、多くの分類タスクに対して個々の話者を過剰適合させることが長い … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Pre-Finetuning for Few-Shot Emotional Speech Recognition はコメントを受け付けていません

Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking

要約 咳や呼吸音などの呼吸音には、幅広い医療用途を予測する力がありますが、現時点 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking はコメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models はコメントを受け付けていません

Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward

要約 最近の研究では、音声基盤エンコーダと大規模言語モデル (LLM) の間の線 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward はコメントを受け付けていません

Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT

要約 スピーチは、人間として自分自身を表現する最も自然な方法です。 感情自体の定 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT はコメントを受け付けていません