-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
An Analysis of Linear Complexity Attention Substitutes with BEST-RQ
要約 自己教師あり学習 (SSL) は、音声処理を含むさまざまな分野で効果的であ … 続きを読む
Towards a Universal Method for Meaningful Signal Detection
要約 人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む
AudioBench: A Universal Benchmark for Audio Large Language Models
要約 Audio Large Language Models (AudioLLM … 続きを読む
Foundation Models for Music: A Survey
要約 近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む
Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers
要約 近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む
Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement
要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む
Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent
要約 この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む
Contextualized Automatic Speech Recognition with Dynamic Vocabulary
要約 ディープ バイアス (DB) は、バイアス リストを使用して、まれな単語や … 続きを読む
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model
要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む
AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge
要約 音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む