-
最近の投稿
- Non-Gaited Legged Locomotion with Monte-Carlo Tree Search and Supervised Learning
- Agricultural Industry Initiatives on Autonomy: How collaborative initiatives of VDMA and AEF can facilitate complexity in domain crossing harmonization needs
- Physics-Grounded Differentiable Simulation for Soft Growing Robots
- SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning
- Online Trajectory Replanner for Dynamically Grasping Irregular Objects
-
最近のコメント
表示できるコメントはありません。 cs.AI (32994) cs.CL (24943) cs.CR (2553) cs.CV (39129) cs.LG (37903) cs.RO (19188) cs.SY (2936) eess.IV (4690) eess.SY (2930) stat.ML (4984)
「cs.SD」カテゴリーアーカイブ
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition
要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む
Music to Dance as Language Translation using Sequence Models
要約 音楽から適切な振り付けを合成することは未解決の問題のままです。 振り付け生 … 続きを読む
uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes
要約 擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
要約 この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む
GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks
要約 高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む
Everyday Speech in the Indian Subcontinent
要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies
要約 オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation
要約 最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む