-
最近の投稿
- Flow Matching Ergodic Coverage
- FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning
- Autonomous Navigation Of Quadrupeds Using Coverage Path Planning
- Terrain-Aware Kinodynamic Planning with Efficiently Adaptive State Lattices for Mobile Robot Navigation in Off-Road Environments
- Quaternion Domain Super MDS for 3D Localization
-
最近のコメント
表示できるコメントはありません。 cs.AI (37184) cs.CL (28138) cs.CV (42902) cs.HC (2842) cs.LG (42124) cs.RO (22037) cs.SY (3369) eess.IV (5000) eess.SY (3361) stat.ML (5510)
「cs.SD」カテゴリーアーカイブ
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Long-Form Speech Generation with Spoken Language Models
要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む
How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System?
要約 音声テキスト同時翻訳 (SimulST) は、話者の発話と同時にソース言語 … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 最近、Linformer や Mamba などのアーキテクチャが、トランス … 続きを読む
Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis
要約 拡散モデルの最近の進歩により、オーディオ駆動のトーキング ヘッド合成に革命 … 続きを読む
RiTTA: Modeling Event Relations in Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む
Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling
要約 会話アシスタントは、現実世界のさまざまなアプリケーションでますます普及して … 続きを読む
ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis
要約 韻律には、単語の文字通りの意味を超えた豊富な情報が含まれており、音声の明瞭 … 続きを読む