-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
LLaSM: Large Language and Speech Model
要約 マルチモーダル大規模言語モデルは、最近大きな関心を集めています。 ただし、 … 続きを読む
Speech Separation based on Contrastive Learning and Deep Modularization
要約 現在のモノラルの最先端の音声分離ツールは教師あり学習に依存しています。 こ … 続きを読む
RoDia: A New Dataset for Romanian Dialect Identification from Speech
要約 方言の識別は、音声処理および言語テクノロジにおいて重要なタスクであり、音声 … 続きを読む
Leveraging Large Language Models for Exploiting ASR Uncertainty
要約 大規模な言語モデルはさまざまな自然言語処理 (NLP) タスクに優れていま … 続きを読む
Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation
要約 この論文では、GENEA (身体エージェントのための非言語行動の生成と評価 … 続きを読む
GRASS: Unified Generation Model for Speech-to-Semantic Tasks
要約 この論文では、音声データのタスク関連プロンプトを条件としたターゲット テキ … 続きを読む
Addressing Feature Imbalance in Sound Source Separation
要約 ニューラル ネットワークは、タスクを解決するために特定の機能に過度に依存し … 続きを読む
Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP
要約 表現力豊かな Text-to-Speech (TTS) の領域では、明示的 … 続きを読む
LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech
要約 自己教師あり学習 (SSL) は、コンピューター ビジョンや自然言語処理な … 続きを読む