-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Improving Sound Source Localization with Joint Slot Attention on Image and Audio
要約 サウンドソースのローカリゼーション(SSL)は、画像内の音源を見つけるタス … 続きを読む
Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion
要約 画像合成に大きな成功を示した後、生成敵対的ネットワーク(GAN)モデルは同 … 続きを読む
A Multi-task Learning Balanced Attention Convolutional Neural Network Model for Few-shot Underwater Acoustic Target Recognition
要約 水中音響ターゲット認識(UATR)は、海洋の多様性と国防の安全を保護するた … 続きを読む
Dysarthria Normalization via Local Lie Group Transformations for Robust ASR
要約 スペクトログラムのローカルリーグループ変換を使用して、ダイサルトリック音声 … 続きを読む
Taming Data and Transformers for Audio Generation
要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild
要約 このペーパーでは、音声ディープファーク検出(SDD)およびスプーフィングの … 続きを読む
EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation
要約 マスクされたモデリングフレームワークは、共和声モーション生成に有望を示して … 続きを読む
AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis
要約 音声合成技術の進歩により、ユーザーは合成された音声の自然性と表現力に対する … 続きを読む
Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation
要約 テキストツースピーチ(TTS)モデルは、音素を波形に変換することにより、複 … 続きを読む
On The Landscape of Spoken Language Models: A Comprehensive Survey
要約 音声言語処理の分野は、普遍的な音声処理システムとして機能するカスタム構築の … 続きを読む