eess.AS」カテゴリーアーカイブ

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

要約 人間のインタラクション用にリアルなオーディオを生成することは、映画や仮想現 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos はコメントを受け付けていません

Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction

要約 大規模言語モデル (LLM) で強化されたエージェントは、人間と AI の … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction はコメントを受け付けていません

1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis

要約 音声合成の最近の進歩により、Google マップの音声案内、スクリーン リ … 続きを読む

カテゴリー: cs.CL, eess.AS | 1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis はコメントを受け付けていません

BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics

要約 ディープラーニング (DL) モデルは、環境の健全性を評価するための鳥類の … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics はコメントを受け付けていません

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

要約 非音声音と非言語音声を知覚して理解することは、周囲と対話するのに役立つ意思 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities はコメントを受け付けていません

Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation

要約 DiffuseST は、複数のソース言語から英語に翻訳しながら、入力話者の … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation はコメントを受け付けていません

An efficient text augmentation approach for contextualized Mandarin speech recognition

要約 文脈に応じた自動音声認識 (ASR) システムは、一般的ではない単語の認識 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An efficient text augmentation approach for contextualized Mandarin speech recognition はコメントを受け付けていません

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection

要約 Whisper は、堅牢かつ大規模な多言語音声認識モデルとして、多くの低リ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection はコメントを受け付けていません

Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content

要約 トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言でき … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content はコメントを受け付けていません

On the Evaluation of Speech Foundation Models for Spoken Language Understanding

要約 音声言語理解評価 (SLUE) ベンチマーク タスク スイートは、自然音声 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | On the Evaluation of Speech Foundation Models for Spoken Language Understanding はコメントを受け付けていません