-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「eess.AS」カテゴリーアーカイブ
Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token Based ASR
要約 最近、SpeechGPT、VioLA、AudioPaLM などの統合音声テ … 続きを読む
Speech language models lack important brain-relevant semantics
要約 脳における読むことと聞くことの違いは知られていますが、最近の研究では、テキ … 続きを読む
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
要約 音声変換 (VC) システムは音声スタイルを転送する顕著な能力を示していま … 続きを読む
Rethinking and Improving Multi-task Learning for End-to-end Speech Translation
要約 マルチタスク学習の適用により、エンドツーエンドの音声翻訳 (ST) が大幅 … 続きを読む
Can CLIP Help Sound Source Localization?
要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む
Proceedings of the 5th International Workshop on Reading Music Systems
要約 International Workshop on Reading Mus … 続きを読む
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
要約 最近、拡散モデルが高品質の音声生成に関連していることが示されています。 ほ … 続きを読む
DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む
Textually Pretrained Speech Language Models
要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む
Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants
要約 自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む