eess.AS」カテゴリーアーカイブ

Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models

要約 自己教師の音声モデルの分析は、さまざまな種類の情報をどこでどのように表現す … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする

UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching

要約 テキストからスピーチ(TTS)の最近の進歩により、非常に自然な音声統合が可 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | コメントする

Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements

要約 長期曝露(PE)療法は、心的外傷後ストレス障害(PTSD)の効果的な治療法 … 続きを読む

カテゴリー: 68T07, cs.CL, cs.HC, eess.AS, H.5.2 | コメントする

Regularizing Learnable Feature Extraction for Automatic Speech Recognition

要約 ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントする

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | コメントする

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | コメントする

Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model

要約 大規模なオーディオ言語モデル(LALMS)は、インテリジェントなヒューマン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

W4S4: WaLRUS Meets S4 for Long-Range Sequence Modeling

要約 状態空間モデル(SSM)は、シーケンスモデリングの強力なコンポーネントとし … 続きを読む

カテゴリー: cs.LG, eess.AS, eess.IV, eess.SP | コメントする

Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

要約 GeminiやChatGptなどのマルチモーダルファンデーションモデルは、 … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする

CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition

要約 音声感情認識(SER)システムのバイアスは、多くの場合、スピーカーの特性と … 続きを読む

カテゴリー: cs.CL, eess.AS | コメントする