-
最近の投稿
- Repurposing Foundation Model for Generalizable Medical Time Series Classification
- Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models
- Cayley Graph Propagation
- Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning
- Continuously Optimizing Radar Placement with Model Predictive Path Integrals
-
最近のコメント
表示できるコメントはありません。 cs.AI (38325) cs.CL (28954) cs.CV (43855) cs.HC (2929) cs.LG (43255) cs.RO (22822) cs.SY (3505) eess.IV (5076) eess.SY (3497) stat.ML (5629)
「cs.SD」カテゴリーアーカイブ
Towards a Universal Method for Meaningful Signal Detection
要約 人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む
AudioBench: A Universal Benchmark for Audio Large Language Models
要約 Audio Large Language Models (AudioLLM … 続きを読む
Foundation Models for Music: A Survey
要約 近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む
Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers
要約 近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む
Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement
要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent
要約 この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む
Contextualized Automatic Speech Recognition with Dynamic Vocabulary
要約 ディープ バイアス (DB) は、バイアス リストを使用して、まれな単語や … 続きを読む
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む
AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge
要約 音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む