-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription
要約 最先端のエンドツーエンドの光学式音楽認識 (OMR) は、これまで主にモノ … 続きを読む
Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification
要約 ラベルのないデータに対して自己教師あり目標を使用して大規模な基礎モデルをト … 続きを読む
Self-consistent context aware conformer transducer for speech recognition
要約 我々は、ASR システムにコンテキスト情報フローを追加する配座異性体トラン … 続きを読む
Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models
要約 リソースが少ない言語研究という非常に制約されたコンテキストにおいて、事前学 … 続きを読む
Unified Speech-Text Pretraining for Spoken Dialog Modeling
要約 最近の研究では、音声を直接理解して合成するための大規模言語モデル (LLM … 続きを読む
SpiRit-LM: Interleaved Spoken and Written Language Model
要約 テキストと音声を自由に混合する基礎マルチモーダル言語モデルである SPIR … 続きを読む
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
MusicRL: Aligning Music Generation to Human Preferences
要約 私たちは人間のフィードバックから微調整された初の音楽生成システム Musi … 続きを読む
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
要約 教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せ … 続きを読む