-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization
要約 このレポートでは、Ego4D Challenge 2023 のオーディオビ … 続きを読む
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
要約 生成人工知能の急速な進歩に伴い、テキストから音楽への合成タスクが、ゼロから … 続きを読む
VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System
要約 アラビア語は、世界中で 4 億 5,000 万人以上が話す、多くの種類と方 … 続きを読む
Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN
要約 この論文では、わずか 4 つのノイズ除去ステップ内で音声サンプルを生成する … 続きを読む
Separate Anything You Describe
要約 Language-Queryed Audio Source Separat … 続きを読む
Towards Matching Phones and Speech Representations
要約 電話インスタンスから電話タイプを学習することは、まだオープンなままではある … 続きを読む
Is Attention always needed? A Case Study on Language Identification from Speech
要約 言語識別 (LID) は、自動音声認識 (ASR) の分野における重要な予 … 続きを読む
Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors
要約 音声対話システムでは、NLU モデルの前に音声認識システムが配置され、自然 … 続きを読む
ArTST: Arabic Text and Speech Transformer
要約 アラビア語のオープンソース音声技術をサポートするための、事前トレーニングさ … 続きを読む
AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement
要約 音声強調システムは通常、きれいな音声とノイズのある音声のペアを使用してトレ … 続きを読む