eess.AS」カテゴリーアーカイブ

The IMS Toucan System for the Blizzard Challenge 2023

要約 Blizzard Challenge 2023 への貢献として、Blizz … 続きを読む

カテゴリー: cs.CL, cs.LG, eess.AS | The IMS Toucan System for the Blizzard Challenge 2023 はコメントを受け付けていません

Towards Matching Phones and Speech Representations

要約 電話インスタンスから電話タイプを学習することは、まだオープンなままではある … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards Matching Phones and Speech Representations はコメントを受け付けていません

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

要約 AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク … 続きを読む

カテゴリー: cs.CL, cs.MM, eess.AS | MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models はコメントを受け付けていません

Is Attention always needed? A Case Study on Language Identification from Speech

要約 言語識別 (LID) は、自動音声認識 (ASR) の分野における重要な予 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | Is Attention always needed? A Case Study on Language Identification from Speech はコメントを受け付けていません

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors

要約 音声対話システムでは、NLU モデルの前に音声認識システムが配置され、自然 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors はコメントを受け付けていません

ArTST: Arabic Text and Speech Transformer

要約 アラビア語のオープンソース音声技術をサポートするための、事前トレーニングさ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | ArTST: Arabic Text and Speech Transformer はコメントを受け付けていません

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

要約 音声強調システムは通常、きれいな音声とノイズのある音声のペアを使用してトレ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement はコメントを受け付けていません

Novel-View Acoustic Synthesis from 3D Reconstructed Rooms

要約 私たちは、ブラインド オーディオ録音と 3D シーン情報を組み合わせて、新 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Novel-View Acoustic Synthesis from 3D Reconstructed Rooms はコメントを受け付けていません

Definition-independent Formalization of Soundscapes: Towards a Formal Methodology

要約 サウンドスケープは、さまざまな分野の研究者によって研究されており、それぞれ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Definition-independent Formalization of Soundscapes: Towards a Formal Methodology はコメントを受け付けていません

Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval

要約 クロスモーダル検索モデルは、三重損失最適化の可能性を活用して、堅牢な埋め込 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval はコメントを受け付けていません