cs.SD」カテゴリーアーカイブ

Towards a Universal Method for Meaningful Signal Detection

要約 人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards a Universal Method for Meaningful Signal Detection はコメントを受け付けていません

AudioBench: A Universal Benchmark for Audio Large Language Models

要約 Audio Large Language Models (AudioLLM … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AudioBench: A Universal Benchmark for Audio Large Language Models はコメントを受け付けていません

Foundation Models for Music: A Survey

要約 近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Foundation Models for Music: A Survey はコメントを受け付けていません

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

要約 近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers はコメントを受け付けていません

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement

要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement はコメントを受け付けていません

Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent

要約 この論文では、高品質で人間のような同時音声翻訳 (SiST) システムであ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent はコメントを受け付けていません

Contextualized Automatic Speech Recognition with Dynamic Vocabulary

要約 ディープ バイアス (DB) は、バイアス リストを使用して、まれな単語や … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Contextualized Automatic Speech Recognition with Dynamic Vocabulary はコメントを受け付けていません

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

要約 オーディオ生成における最近の進歩は、大規模言語モデル (LLM) の機能に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model はコメントを受け付けていません

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

要約 音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge はコメントを受け付けていません

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming はコメントを受け付けていません