-
最近の投稿
- Nearest-Neighbourless Asymptotically Optimal Motion Planning with Fully Connected Informed Trees (FCIT*)
- Performance assessment of ADAS in a representative subset of critical traffic situations
- Exciting Contact Modes in Differentiable Simulations for Robot Learning
- Can LLMs plan paths in the real world?
- DECODE: Domain-aware Continual Domain Expansion for Motion Prediction
-
最近のコメント
表示できるコメントはありません。 cs.AI (30257) cs.CL (22857) cs.CR (2346) cs.CV (36632) cs.LG (35077) cs.RO (17603) cs.SY (2704) eess.IV (4458) eess.SY (2698) stat.ML (4675)
「eess.AS」カテゴリーアーカイブ
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
要約 我々はDITTO(Diffusion Inference-Time T-O … 続きを読む
SpeechVerse: A Large-scale Generalizable Audio Language Model
要約 大規模言語モデル (LLM) は、自然言語命令の意味的理解を必要とするタス … 続きを読む
Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities
要約 複数の生成基盤モデル、特にさまざまなモダリティでトレーニングされたモデルを … 続きを読む
Iterative Feature Boosting for Explainable Speech Emotion Recognition
要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む
Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting
要約 ほとんどの音声自己教師あり学習 (SSL) モデルは、入力信号の欠落部分 … 続きを読む
Iterative Feature Boosting for Explainable Speech Emotion Recognition
要約 音声感情認識 (SER) では、実際の重要性を考慮せずに事前定義された特徴 … 続きを読む
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
要約 この作品では、テキストの歌詞入力から直接 3D の全体的な体の動きを生成し … 続きを読む
BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation
要約 最近のエンドツーエンドのアプローチは、大規模言語モデル (LLM) を音声 … 続きを読む
Continual Contrastive Spoken Language Understanding
要約 最近、ニューラル ネットワークはさまざまな分野で目覚ましい進歩を遂げており … 続きを読む
TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms
要約 私たちは、モバイルおよびウェアラブルプラットフォームに適した、音響および骨 … 続きを読む