-
最近の投稿
- On the Feedback Law in Stochastic Optimal Nonlinear Control
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16023) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer
要約 近年の音声認識におけるエンドツーエンド (E2E) モデルの目覚ましい進歩 … 続きを読む
CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders
要約 大規模な自己監視型の事前トレーニング済み音声エンコーダは、音声認識および翻 … 続きを読む
L1-aware Multilingual Mispronunciation Detection Framework
要約 話者の母語 (L1) と非母語 (L2) の間の音韻の不一致は、発音の誤り … 続きを読む
Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features
要約 eXplainable AI (XAI) の最近の進歩により、視覚、言語、 … 続きを読む
The complementary roles of non-verbal cues for Robust Pronunciation Assessment
要約 発音評価システムの研究は、非ネイティブ (L2) 音声の音声および音韻論的 … 続きを読む
Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks
要約 Transformer アーキテクチャは自動音声認識 (ASR) タスクに … 続きを読む
SingFake: Singing Voice Deepfake Detection
要約 歌声合成の台頭は、アーティストや業界関係者に、音声の不正使用をめぐる重大な … 続きを読む
Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer
要約 個別の自己教師あり表現を使用した直接音声対音声翻訳 (S2ST) は、驚く … 続きを読む
CiwaGAN: Articulatory information exchange
要約 人間は調音器官を制御することで情報を音に符号化し、聴覚装置を使用して音から … 続きを読む
SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability
要約 ホットワードのカスタマイズは、ASR 分野に残された懸念事項の 1 つです … 続きを読む