-
最近の投稿
- FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation
- A Novel Twisted-Winching String Actuator for Robotic Applications: Design and Validation
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration
- Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (28198) cs.CL (21301) cs.CR (2201) cs.CV (34856) cs.LG (32941) cs.RO (16224) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4412)
「cs.SD」カテゴリーアーカイブ
Leveraging Cross-Utterance Context For ASR Decoding
要約 外部言語モデル (LM) は自動音声認識システムのデコード段階に組み込まれ … 続きを読む
Predicting Music Hierarchies with a Graph-Based Neural Decoder
要約 この論文では、音楽シーケンスを依存関係ツリーに解析するためのデータ駆動型フ … 続きを読む
High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units
要約 自動ボイスオーバー (AVO) の目標は、指定されたテキスト スクリプトに … 続きを読む
LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT
要約 LyricWhiz は、ロックやメタルなどの難しいジャンルでも、さまざまな … 続きを読む
Long-term Conversation Analysis: Exploring Utility and Privacy
要約 日常生活で記録された会話の分析にはプライバシーの保護が必要です。 この寄稿 … 続きを読む
DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer
要約 中立的な TTS は大きな成功を収めましたが、コンテンツの漏洩は依然として … 続きを読む
Improving Primate Sounds Classification using Binary Presorting for Deep Learning
要約 野生動物の観察と保護の分野では、音声録音の機械学習を伴うアプローチがますま … 続きを読む
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels
要約 オーディオビジュアル音声認識は、音響ノイズに対する堅牢性により多くの注目を … 続きを読む
3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement
要約 音声発話内の相関関係のない情報を解きほぐすことは、音声コミュニティ内での重 … 続きを読む
WACO: Word-Aligned Contrastive Learning for Speech Translation
要約 エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲット テ … 続きを読む