-
最近の投稿
- On the Feedback Law in Stochastic Optimal Nonlinear Control
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16023) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Exploring Meta Information for Audio-based Zero-shot Bird Classification
要約 受動的音響モニタリングと機械学習の進歩により、計算による生体音響研究のため … 続きを読む
Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network
要約 標準的な話者ダイアリゼーションは「誰がいつ話したか」という質問に答えようと … 続きを読む
Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech
要約 この研究では、上流の音声変換 (VC) モデルと下流の Text-To-S … 続きを読む
DiaCorrect: Error Correction Back-end For Speaker Diarization
要約 この研究では、シンプルかつ効果的な方法でダイアライゼーション システムの出 … 続きを読む
Mixture Encoder Supporting Continuous Speech Separation for Meeting Recognition
要約 自動音声認識 (ASR) の現実のアプリケーションの多くは、重複した音声の … 続きを読む
Augmenting conformers with structured state space models for online speech recognition
要約 モデルが左側のコンテキストにのみアクセスするオンライン音声認識は、ASR … 続きを読む
System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation
要約 深層音声合成モデルの急速な進歩は、悪意のあるコンテンツ操作などの重大な脅威 … 続きを読む
Text-Driven Foley Sound Generation With Latent Diffusion Model
要約 フォーリー サウンド生成は、マルチメディア コンテンツの背景サウンドを合成 … 続きを読む
Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech
要約 有名な変分オートエンコーダ (VAE) およびベクトル量子化変分オートエン … 続きを読む