eess.AS」カテゴリーアーカイブ

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

要約 GPT-4O様の大型マルチモーダルモデル(LMMS)の出現により、テキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model はコメントを受け付けていません

Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech

要約 拡散モデルは、高品質で自然な音声サンプルを生成することに大きな成功を収めて … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Non-intrusive Speech Quality Assessment with Diffusion Models Trained on Clean Speech はコメントを受け付けていません

Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English

要約 音声トークネイザーは、最近の音声タスクで重要な役割を果たし、一般的に音声シ … 続きを読む

カテゴリー: 68T10, cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English はコメントを受け付けていません

Reimagining Dance: Real-time Music Co-creation between Dancers and AI

要約 ダンスのパフォーマンスは、伝統的に、動きが音楽に反応する一方的な関係に従っ … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Reimagining Dance: Real-time Music Co-creation between Dancers and AI はコメントを受け付けていません

Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models

要約 自己教師の音声モデルの分析は、さまざまな種類の情報をどこでどのように表現す … 続きを読む

カテゴリー: cs.CL, eess.AS | Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models はコメントを受け付けていません

UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching

要約 テキストからスピーチ(TTS)の最近の進歩により、非常に自然な音声統合が可 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching はコメントを受け付けていません

Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements

要約 長期曝露(PE)療法は、心的外傷後ストレス障害(PTSD)の効果的な治療法 … 続きを読む

カテゴリー: 68T07, cs.CL, cs.HC, eess.AS, H.5.2 | Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements はコメントを受け付けていません

Regularizing Learnable Feature Extraction for Automatic Speech Recognition

要約 ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Regularizing Learnable Feature Extraction for Automatic Speech Recognition はコメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | Teaching Physical Awareness to LLMs through Sounds はコメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | Teaching Physical Awareness to LLMs through Sounds はコメントを受け付けていません