-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.SD」カテゴリーアーカイブ
Sines, Transient, Noise Neural Modeling of Piano Notes
要約 この論文では、ピアノサウンドをエミュレートする新しい方法を紹介します。 正 … 続きを読む
Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models
要約 この論文では、選択的状態空間モデルを備えたディープ ニューラル ネットワー … 続きを読む
Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
要約 この論文では、コンピューター ビジョンの Frechet Inceptio … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む
Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む
Salmon: A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models
要約 話者属性自動音声認識 (SA-ASR) は、音声を文字に起こしながら、対応 … 続きを読む
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
要約 近年、画像合成やテキスト生成の分野でAIGC(Artificial Int … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む