-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT
要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む
Confidence-based Ensembles of End-to-End Speech Recognition Models
要約 エンドツーエンドの音声認識モデルの数は年々増加しています。 これらのモデル … 続きを読む
Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition
要約 言語モデル (LM) の統合は、音声認識におけるドメインの変化に対処する効 … 続きを読む
Accelerating Transducers through Adjacent Token Merging
要約 最近のエンドツーエンドの自動音声認識 (ASR) システムでは、高フレーム … 続きを読む
Long-term Conversation Analysis: Exploring Utility and Privacy
要約 日常生活で記録された会話の分析にはプライバシーの保護が必要です。 この寄稿 … 続きを読む
DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer
要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む
Improving Primate Sounds Classification using Binary Presorting for Deep Learning
要約 野生動物の観察と保護の分野では、音声録音の機械学習を伴うアプローチがますま … 続きを読む
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
要約 オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
要約 音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重 … 続きを読む
WACO: Word-Aligned Contrastive Learning for Speech Translation
要約 エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲット テ … 続きを読む