-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.SD」カテゴリーアーカイブ
Raw Speech Enhancement with Deep State Space Modeling
要約 エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR
要約 言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、 … 続きを読む
Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
要約 この論文では、音声データとビデオ データを組み合わせて、臨床評価のために喉 … 続きを読む
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition
要約 シリアル化出力トレーニング (SOT) は、マルチ話者の自動音声認識 (A … 続きを読む
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む
An Analysis of Linear Complexity Attention Substitutes with BEST-RQ
要約 自己教師あり学習 (SSL) は、音声処理を含むさまざまな分野で効果的であ … 続きを読む
Towards a Universal Method for Meaningful Signal Detection
要約 人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む
AudioBench: A Universal Benchmark for Audio Large Language Models
要約 Audio Large Language Models (AudioLLM … 続きを読む
Foundation Models for Music: A Survey
要約 近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む