-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
An analysis on the effects of speaker embedding choice in non auto-regressive TTS
要約 この論文では、非自己回帰因数分解マルチ話者音声合成アーキテクチャが、さまざ … 続きを読む
Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization
要約 オーディオビジュアル イベント ローカライゼーション (AVEL) は、 … 続きを読む
SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs
要約 近年、大規模な事前トレーニング済み音声言語モデル (SLM) により、テキ … 続きを読む
FlexiAST: Flexibility is What AST Needs
要約 この作業の目的は、オーディオ スペクトログラム トランスフォーマー (AS … 続きを読む
Model Adaptation for ASR in low-resource Indian Languages
要約 自動音声認識 (ASR) のパフォーマンスは、主に wav2vec2 など … 続きを読む
BASS: Block-wise Adaptation for Speech Summarization
要約 エンドツーエンドの音声要約は、カスケード ベースラインよりもパフォーマンス … 続きを読む
Multilingual Speech-to-Speech Translation into Multiple Target Languages
要約 Speech-to-Speech Translation (S2ST) に … 続きを読む
Semi-supervised cross-lingual speech emotion recognition
要約 単一言語での音声感情認識 (SER) のパフォーマンスは、深層学習技術の使 … 続きを読む
Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
要約 私たちは、音声認識 (ASR) で事前トレーニングされたエンコーダを使用し … 続きを読む
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios
要約 CHiME の課題は、堅牢な自動音声認識 (ASR) システムの開発と評価 … 続きを読む