eess.AS」カテゴリーアーカイブ

Fine-tuning Whisper on Low-Resource Languages for Real-World Applications

要約 このペーパーでは、Swissドイツ語をケーススタディとして使用して、文レベ … 続きを読む

カテゴリー: cs.CL, eess.AS | Fine-tuning Whisper on Low-Resource Languages for Real-World Applications はコメントを受け付けていません

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

要約 このホワイトペーパーでは、オーディオデータとビデオデータの両方を活用して、 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis はコメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

要約 大規模な言語モデル(LLMS)の急速な進歩は、自然言語処理能力を大幅に強化 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders はコメントを受け付けていません

Testing LLMs’ Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT

要約 この研究では、エラーの類型に基づいてMT出力に注釈を付ける際に、大規模な言 … 続きを読む

カテゴリー: cs.CL, eess.AS | Testing LLMs’ Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT はコメントを受け付けていません

Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion

要約 画像合成に大きな成功を示した後、生成敵対的ネットワーク(GAN)モデルは同 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion はコメントを受け付けていません

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

要約 人間のスピーチは、情報の単なる転送を超えています。 それは感情の深いやり取 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting はコメントを受け付けていません

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

要約 人間のスピーチは、情報の単なる転送を超えています。 それは感情の深いやり取 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting はコメントを受け付けていません

A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition

要約 水中音響ターゲット認識(UATR)は、海洋の多様性と国防の安全を保護するた … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition はコメントを受け付けていません

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

要約 Sift(音声指導の微調整)、音声テキスト大規模言語モデル(LLM)の指示 … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning はコメントを受け付けていません

Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

要約 スペクトログラムのローカルリーグループ変換を使用して、ダイサルトリック音声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dysarthria Normalization via Local Lie Group Transformations for Robust ASR はコメントを受け付けていません