「eess.AS」カテゴリーアーカイブ

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

投稿日: 2023年10月31日作成者: jarxiv

要約このレポートでは、Ego4D Challenge 2023 のオーディオビ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation

投稿日: 2023年10月31日作成者: jarxiv

要約生成人工知能の急速な進歩に伴い、テキストから音楽への合成タスクが、ゼロから … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System

投稿日: 2023年10月30日作成者: jarxiv

要約アラビア語は、世界中で 4 億 5,000 万人以上が話す、多くの種類と方 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

投稿日: 2023年10月30日作成者: jarxiv

要約この論文では、わずか 4 つのノイズ除去ステップ内で音声サンプルを生成する … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Separate Anything You Describe

投稿日: 2023年10月30日作成者: jarxiv

要約 Language-Queryed Audio Source Separat … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge

投稿日: 2023年10月27日作成者: jarxiv

要約この文書では、ASRU MADASR 2023 チャレンジのために開発され … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

The IMS Toucan System for the Blizzard Challenge 2023

投稿日: 2023年10月27日作成者: jarxiv

要約 Blizzard Challenge 2023 への貢献として、Blizz … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Towards Matching Phones and Speech Representations

投稿日: 2023年10月27日作成者: jarxiv

要約電話インスタンスから電話タイプを学習することは、まだオープンなままではある … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

投稿日: 2023年10月26日作成者: jarxiv

要約 AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク … 続きを読む →

カテゴリー: cs.CL, cs.MM, eess.AS | コメントを受け付けていません

Is Attention always needed? A Case Study on Language Identification from Speech

投稿日: 2023年10月26日作成者: jarxiv

要約言語識別 (LID) は、自動音声認識 (ASR) の分野における重要な予 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN

Separate Anything You Describe

Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge

The IMS Toucan System for the Blizzard Challenge 2023

Towards Matching Phones and Speech Representations

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

Is Attention always needed? A Case Study on Language Identification from Speech

最近の投稿

最近のコメント

アーカイブ

カテゴリー