-
最近の投稿
- Depth-supervised NeRF: Fewer Views and Faster Training for Free
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34913) cs.LG (33010) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
An analysis on the effects of speaker embedding choice in non auto-regressive TTS
要約 この論文では、非自己回帰因数分解マルチ話者音声合成アーキテクチャが、さまざ … 続きを読む
Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization
要約 オーディオビジュアル イベント ローカライゼーション (AVEL) は、 … 続きを読む
SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs
要約 近年、大規模な事前トレーニング済み音声言語モデル (SLM) により、テキ … 続きを読む
FlexiAST: Flexibility is What AST Needs
要約 この作業の目的は、オーディオ スペクトログラム トランスフォーマー (AS … 続きを読む
Model Adaptation for ASR in low-resource Indian Languages
要約 自動音声認識 (ASR) のパフォーマンスは、主に wav2vec2 など … 続きを読む
BASS: Block-wise Adaptation for Speech Summarization
要約 エンドツーエンドの音声要約は、カスケード ベースラインよりもパフォーマンス … 続きを読む
Multilingual Speech-to-Speech Translation into Multiple Target Languages
要約 Speech-to-Speech Translation (S2ST) に … 続きを読む
Semi-supervised cross-lingual speech emotion recognition
要約 単一言語での音声感情認識 (SER) のパフォーマンスは、深層学習技術の使 … 続きを読む
Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
要約 私たちは、音声認識 (ASR) で事前トレーニングされたエンコーダを使用し … 続きを読む
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios
要約 CHiME の課題は、堅牢な自動音声認識 (ASR) システムの開発と評価 … 続きを読む