
Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

要約 読唇術は、唇の動きを分析することで話し言葉を予測することを目的としています … 続きを読む

カテゴリー: cs.CL, cs.CV, eess.AS, eess.IV | Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language はコメントを受け付けていません

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

要約 サウンド デザイナーやフォーリー アーティストは通常​​、ビデオ内の関心の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls はコメントを受け付けていません

Improving Generalization for AI-Synthesized Voice Detection

要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Improving Generalization for AI-Synthesized Voice Detection はコメントを受け付けていません

A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation

要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation はコメントを受け付けていません

Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment

要約 音声とテキストを活用するマルチモーダル感情認識 (MER) は、人間とコン … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment はコメントを受け付けていません

Two-component spatiotemporal template for activation-inhibition of speech in ECoG

要約 子音母音の発話タスク中に複数の被験者から記録された、マルチチャネル高密度皮 … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS, eess.SP, q-bio.NC | Two-component spatiotemporal template for activation-inhibition of speech in ECoG はコメントを受け付けていません

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

要約 TangoFlux は、5 億 1500 万のパラメーターを備えた効率的な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization はコメントを受け付けていません

ETTA: Elucidating the Design Space of Text-to-Audio Models

要約 近年、Text-To-Audio (TTA) 合成が大幅に進歩しており、ユ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | ETTA: Elucidating the Design Space of Text-to-Audio Models はコメントを受け付けていません

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Building a Taiwanese Mandarin Spoken Language Model: A First Attempt はコメントを受け付けていません

Mamba for Streaming ASR Combined with Unimodal Aggregation

要約 この論文はストリーミング自動音声認識 (ASR) に取り組んでいます。 最 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Mamba for Streaming ASR Combined with Unimodal Aggregation はコメントを受け付けていません