「cs.SD」カテゴリーアーカイブ

An Analysis of Linear Complexity Attention Substitutes with BEST-RQ

投稿日: 2024年9月5日作成者: jarxiv

要約自己教師あり学習 (SSL) は、音声処理を含むさまざまな分野で効果的であ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards a Universal Method for Meaningful Signal Detection

投稿日: 2024年9月5日作成者: jarxiv

要約人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AudioBench: A Universal Benchmark for Audio Large Language Models

投稿日: 2024年9月4日作成者: jarxiv

要約 Audio Large Language Models (AudioLLM … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Foundation Models for Music: A Survey

投稿日: 2024年9月4日作成者: jarxiv

要約近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

投稿日: 2024年9月4日作成者: jarxiv

要約近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement

投稿日: 2024年9月2日作成者: jarxiv

要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

投稿日: 2024年9月2日作成者: jarxiv

要約この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Contextualized Automatic Speech Recognition with Dynamic Vocabulary

投稿日: 2024年9月2日作成者: jarxiv

要約ディープバイアス (DB) は、バイアスリストを使用して、まれな単語や … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

投稿日: 2024年9月2日作成者: jarxiv

要約オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

投稿日: 2024年9月2日作成者: jarxiv

要約音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

An Analysis of Linear Complexity Attention Substitutes with BEST-RQ

Towards a Universal Method for Meaningful Signal Detection

AudioBench: A Universal Benchmark for Audio Large Language Models

Foundation Models for Music: A Survey

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement

Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

Contextualized Automatic Speech Recognition with Dynamic Vocabulary

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

最近の投稿

最近のコメント

アーカイブ

カテゴリー