eess.AS」カテゴリーアーカイブ

Everyday Speech in the Indian Subcontinent

要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Everyday Speech in the Indian Subcontinent はコメントを受け付けていません

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

要約 オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies はコメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

要約 最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません

UniGlyph: A Seven-Segment Script for Universal Language Representation

要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む

カテゴリー: 68T01, 68T50, cs.CL, cs.HC, cs.SC, cs.SD, eess.AS, H.5.2 | UniGlyph: A Seven-Segment Script for Universal Language Representation はコメントを受け付けていません

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

要約 柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models はコメントを受け付けていません

Sylber: Syllabic Embedding Representation of Speech from Raw Audio

要約 音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Sylber: Syllabic Embedding Representation of Speech from Raw Audio はコメントを受け付けていません

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

要約 ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデル … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling はコメントを受け付けていません

Presto! Distilling Steps and Layers for Accelerating Music Generation

要約 拡散ベースのテキスト音楽変換 (TTM) 手法は進歩していますが、効率的で … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Presto! Distilling Steps and Layers for Accelerating Music Generation はコメントを受け付けていません