-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「cs.SD」カテゴリーアーカイブ
Comparative Analysis of the wav2vec 2.0 Feature Extractor
要約 自動音声認識 (ASR) システムは通常、手作りの特徴抽出パイプラインを使 … 続きを読む
Towards an AI to Win Ghana’s National Science and Maths Quiz
要約 AI はガーナの国家科学数学クイズ (NSMQ) に勝つことができるでしょ … 続きを読む
Finding Tori: Self-supervised Learning for Analyzing Korean Folk Song
要約 本論文では、1980-90年代に録音された約700時間の韓国民謡のフィール … 続きを読む
Federated Representation Learning for Automatic Speech Recognition
要約 Federated Learning(FL)はプライバシーを保護するパラダ … 続きを読む
Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion Recognition
要約 コーパス横断的音声感情認識(SER)は、ラベル付けされたコーパスからラベル … 続きを読む
Efficient Monaural Speech Enhancement using Spectrum Attention Fusion
要約 音声強調は、自動音声処理パイプラインにおける要求の厳しいタスクであり、ノイ … 続きを読む
N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets
要約 固有名詞や専門用語の正確な書き起こしは、ビジネス会話の音声テキスト化アプリ … 続きを読む
Video Background Music Generation: Dataset, Method and Evaluation
要約 動画編集に音楽は欠かせないが、手作業で選曲するのは難しく、時間もかかる。そ … 続きを読む
Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification
要約 本論文では、音声障害の評価を支援するために、音声記録から音声異常を特定する … 続きを読む
SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis
要約 FastSpeech2 は、ピッチ、エネルギー、長さなどの音声の側面を条件 … 続きを読む