-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup
要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む
Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation
要約 ニューラル駆動ビームフォーマーは、その堅牢性と柔軟性により、ノイズや残響と … 続きを読む
Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection
要約 産業機械コンポーネントの潜在的な故障を早期に検出することは、動作の信頼性と … 続きを読む
Arabic Music Classification and Generation using Deep Learning
要約 この論文は、エジプトの古典音楽と新しい音楽を作曲家ごとに分類し、類似した新 … 続きを読む
We Augmented Whisper With kNN and You Won’t Believe What Came Next
要約 音声認識のパフォーマンスは、言語、ドメイン、アクセントなどの話者の特性によ … 続きを読む
Taming Data and Transformers for Audio Generation
要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation
要約 全二重音声対話システムは、人間と人間のやりとりを厳密に反映した同時双方向通 … 続きを読む
ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams
要約 Text-to-Speech (TTS) テクノロジーの最近の進歩により、 … 続きを読む
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec
要約 この論文では、話者の音声を完全に複製し、数秒間の音声プロンプトと単純なテキ … 続きを読む