-
最近の投稿
- Depth-supervised NeRF: Fewer Views and Faster Training for Free
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34913) cs.LG (33010) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
A Review of Machine Learning Methods Applied to Structural Dynamics and Vibroacoustic
要約 機械学習 (ML) の使用はいくつかの分野に急速に広がり、構造力学と振動音 … 続きを読む
Globally Normalising the Transducer for Streaming Speech Recognition
要約 トランスデューサ (RNN トランスデューサやコンフォーマ トランスデュー … 続きを読む
Progressive distillation diffusion for raw music generation
要約 このペーパーは、生のオーディオ ファイルを生成するタスクに新しい深層学習ア … 続きを読む
Brain2Music: Reconstructing Music from Human Brain Activity
要約 人間の脳の活動から経験を再構築するプロセスは、脳が世界をどのように解釈し表 … 続きを読む
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition
要約 この論文では、一般的な大規模事前学習モデル (PTM) を音声感情認識タス … 続きを読む
A Textless Metric for Speech-to-Speech Comparison
要約 この論文では、テキストのトランスクリプトに依存せずに音声発話を比較するため … 続きを読む
Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages
要約 従来の音声感情認識 (SER) タスクでは、特定の言語の分類子が、同じ言語 … 続きを読む
MASR: Metadata Aware Speech Representation
要約 近年、音声表現学習は主に自己教師あり学習 (SSL) タスクとして構築され … 続きを読む
Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding
要約 事前トレーニング済み音声認識 (ASR) と言語モデル (LM) を SL … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習に基づくクロスモダリティ事前トレーニング手法は、最近、さまざまな分 … 続きを読む