-
最近の投稿
- FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation
- A Novel Twisted-Winching String Actuator for Robotic Applications: Design and Validation
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration
- Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (28198) cs.CL (21301) cs.CR (2201) cs.CV (34856) cs.LG (32941) cs.RO (16224) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4412)
「cs.SD」カテゴリーアーカイブ
Globally Normalising the Transducer for Streaming Speech Recognition
要約 トランスデューサ (RNN トランスデューサやコンフォーマ トランスデュー … 続きを読む
Progressive distillation diffusion for raw music generation
要約 このペーパーは、生のオーディオ ファイルを生成するタスクに新しい深層学習ア … 続きを読む
Brain2Music: Reconstructing Music from Human Brain Activity
要約 人間の脳の活動から経験を再構築するプロセスは、脳が世界をどのように解釈し表 … 続きを読む
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition
要約 この論文では、一般的な大規模事前学習モデル (PTM) を音声感情認識タス … 続きを読む
A Textless Metric for Speech-to-Speech Comparison
要約 この論文では、テキストのトランスクリプトに依存せずに音声発話を比較するため … 続きを読む
Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages
要約 従来の音声感情認識 (SER) タスクでは、特定の言語の分類子が、同じ言語 … 続きを読む
MASR: Metadata Aware Speech Representation
要約 近年、音声表現学習は主に自己教師あり学習 (SSL) タスクとして構築され … 続きを読む
Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding
要約 事前トレーニング済み音声認識 (ASR) と言語モデル (LM) を SL … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習に基づくクロスモダリティ事前トレーニング手法は、最近、さまざまな分 … 続きを読む