「eess.AS」カテゴリーアーカイブ

UniSync: A Unified Framework for Audio-Visual Synchronization

投稿日: 2025年3月21日作成者: jarxiv

要約スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

投稿日: 2025年3月20日作成者: jarxiv

要約自動音声認識（ASR）の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

投稿日: 2025年3月20日作成者: jarxiv

要約大規模な言語モデル（LLM）は最近、テキストだけでなく、音声やオーディオな … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

投稿日: 2025年3月20日作成者: jarxiv

要約最近、強化学習（RL）は、大規模な言語モデル（LLM）の推論能力を大幅に強 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

投稿日: 2025年3月20日作成者: jarxiv

要約テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation

投稿日: 2025年3月19日作成者: jarxiv

要約エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control

投稿日: 2025年3月19日作成者: jarxiv

要約スタイル転送とスタイルコントロールを備えたゼロショット歌声合成（SVS）は … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

投稿日: 2025年3月19日作成者: jarxiv

要約テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers

投稿日: 2025年3月18日作成者: jarxiv

要約感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む →

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

LLM-based speaker diarization correction: A generalizable approach

投稿日: 2025年3月18日作成者: jarxiv

要約スピーカーダイアリゼーションは、自動化された音声認識（ASR）ツールを使用 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

UniSync: A Unified Framework for Audio-Visual Synchronization

Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces

Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

MoonCast: High-Quality Zero-Shot Podcast Generation

AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control

MoonCast: High-Quality Zero-Shot Podcast Generation

Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers

LLM-based speaker diarization correction: A generalizable approach

最近の投稿

最近のコメント

アーカイブ

カテゴリー