eess.AS」カテゴリーアーカイブ

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

要約 歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の … 続きを読む

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis はコメントを受け付けていません

RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement

要約 このペーパーでは、今後の入力に依存せずに、ライブ ビデオ ストリームとノイ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement はコメントを受け付けていません

Learn and Don’t Forget: Adding a New Language to ASR Foundation Models

要約 Foundation ASR モデルは多くの場合、多くの言語をサポートしま … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Learn and Don’t Forget: Adding a New Language to ASR Foundation Models はコメントを受け付けていません

Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect

要約 自己教師あり学習 (SSL) を通じて事前トレーニングされた音声エンコーダ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect はコメントを受け付けていません

Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models

要約 音声統合大規模言語モデル (SILLM) は、大規模言語モデルと音声認識を … 続きを読む

カテゴリー: cs.CL, cs.CY, eess.AS | Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models はコメントを受け付けていません

Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models

要約 自殺リスクの早期発見は、自殺企図の可能性を防ぐための介入を可能にするため重 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models はコメントを受け付けていません

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper

要約 この研究では、プロンプトの情報が高性能音声認識モデル Whisper とど … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching

要約 ビデオ – オーディオ (V2A) 生成は、サイレント ビデオ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching はコメントを受け付けていません

Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results

要約 ユーモアは人間の社会的行動、感情、認知の重要な要素です。 その自動理解によ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results はコメントを受け付けていません