eess.AS」カテゴリーアーカイブ

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis

要約 この論文では、音声データとビデオ データを組み合わせて、臨床評価のために喉 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis はコメントを受け付けていません

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

要約 シリアル化出力トレーニング (SOT) は、マルチ話者の自動音声認識 (A … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition はコメントを受け付けていません

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

要約 拡張現実 (AR) デバイスは、著名なモバイル インタラクション プラット … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation はコメントを受け付けていません

An Analysis of Linear Complexity Attention Substitutes with BEST-RQ

要約 自己教師あり学習 (SSL) は、音声処理を含むさまざまな分野で効果的であ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | An Analysis of Linear Complexity Attention Substitutes with BEST-RQ はコメントを受け付けていません

Towards a Universal Method for Meaningful Signal Detection

要約 人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Towards a Universal Method for Meaningful Signal Detection はコメントを受け付けていません

AudioBench: A Universal Benchmark for Audio Large Language Models

要約 Audio Large Language Models (AudioLLM … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AudioBench: A Universal Benchmark for Audio Large Language Models はコメントを受け付けていません

Foundation Models for Music: A Survey

要約 近年、大規模言語モデル(LLM)や潜在拡散モデル(LDM)などの基盤モデル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Foundation Models for Music: A Survey はコメントを受け付けていません

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

要約 近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers はコメントを受け付けていません

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement

要約 1 次元フィルターを備えた畳み込み層は、オーディオ信号をエンコードするため … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement はコメントを受け付けていません

SelectTTS: Synthesizing Anyone’s Voice via Discrete Unit-Based Frame Selection

要約 見えない話者の音声を合成することは、複数話者のテキスト読み上げ (TTS) … 続きを読む

カテゴリー: cs.LG, eess.AS | SelectTTS: Synthesizing Anyone’s Voice via Discrete Unit-Based Frame Selection はコメントを受け付けていません