-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech
要約 有名な変分オートエンコーダ (VAE) およびベクトル量子化変分オートエン … 続きを読む
Direct Text to Speech Translation System using Acoustic Units
要約 本稿では、離散音響ユニットを用いたテキストから音声への直接翻訳システムを提 … 続きを読む
Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer
要約 近年の音声認識におけるエンドツーエンド (E2E) モデルの目覚ましい進歩 … 続きを読む
CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders
要約 大規模な自己監視型の事前トレーニング済み音声エンコーダは、音声認識および翻 … 続きを読む
L1-aware Multilingual Mispronunciation Detection Framework
要約 話者の母語 (L1) と非母語 (L2) の間の音韻の不一致は、発音の誤り … 続きを読む
Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features
要約 eXplainable AI (XAI) の最近の進歩により、視覚、言語、 … 続きを読む
The complementary roles of non-verbal cues for Robust Pronunciation Assessment
要約 発音評価システムの研究は、非ネイティブ (L2) 音声の音声および音韻論的 … 続きを読む
Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks
要約 Transformer アーキテクチャは自動音声認識 (ASR) タスクに … 続きを読む
SingFake: Singing Voice Deepfake Detection
要約 歌声合成の台頭は、アーティストや業界関係者に、音声の不正使用をめぐる重大な … 続きを読む
Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer
要約 個別の自己教師あり表現を使用した直接音声対音声翻訳 (S2ST) は、驚く … 続きを読む