-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.SD」カテゴリーアーカイブ
Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings
要約 音声ベースのトピック セグメンテーションの最近の進歩により、事前トレーニン … 続きを読む
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
要約 音声質問応答タスクには、音声イベント分類、音声キャプション、およびオープン … 続きを読む
SpeechTaxi: On Multilingual Semantic Speech Classification
要約 多言語音声符号化および文字起こしにおける最近の進歩により、意味論的音声分類 … 続きを読む
LAST: Language Model Aware Speech Tokenization
要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む
Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens
要約 私たちは、既存のエンドツーエンドのダイアライゼーション モデルと比較して型 … 続きを読む
An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition
要約 エンドツーエンド (E2E) 自動音声認識 (ASR) モデルは、さまざま … 続きを読む
MuPT: A Generative Symbolic Music Pretrained Transformer
要約 この論文では、音楽の事前トレーニングへの大規模言語モデル (LLM) の適 … 続きを読む
Sine, Transient, Noise Neural Modeling of Piano Notes
要約 この論文では、ピアノサウンドをエミュレートするための新しい方法を紹介します … 続きを読む
SPMamba: State-space model is all you need in speech separation
要約 既存の CNN ベースの音声分離モデルは、局所的な受容野の制限に直面してお … 続きを読む