eess.AS」カテゴリーアーカイブ

Low-resource speech recognition and dialect identification of Irish in a multi-task framework

要約 このペーパーでは、アイルランド語 (ゲール語) の低リソース音声認識 (A … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Low-resource speech recognition and dialect identification of Irish in a multi-task framework はコメントを受け付けていません

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading

要約 この論文では、2 つの観察に基づいて、読唇術における話者適応のための新しい … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading はコメントを受け付けていません

ComposerX: Multi-Agent Symbolic Music Composition with LLMs

要約 音楽作曲は人類の創造的な側面を表しており、それ自体が長い依存関係とハーモニ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | ComposerX: Multi-Agent Symbolic Music Composition with LLMs はコメントを受け付けていません

SemiPL: A Semi-supervised Method for Event Sound Source Localization

要約 近年、イベント音源定位はさまざまな分野で広く応用されています。 最近の作品 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | SemiPL: A Semi-supervised Method for Event Sound Source Localization はコメントを受け付けていません

Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis

要約 対面で会話する人間は口頭と非言語の両方で同時にコミュニケーションをとります … 続きを読む

カテゴリー: 68T07, 68T42, cs.CV, cs.GR, cs.HC, cs.SD, eess.AS, I.2.6 | Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis はコメントを受け付けていません

Certification of Speaker Recognition Models to Additive Perturbations

要約 話者認識テクノロジーは、パーソナル仮想アシスタントから安全なアクセス シス … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Certification of Speaker Recognition Models to Additive Perturbations はコメントを受け付けていません

A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification

要約 この論文では、32 のカテゴリ (2 つの性別、4 つの年齢層、4 つの録 … 続きを読む

カテゴリー: cs.CL, cs.DL, cs.LG, cs.SD, eess.AS | A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification はコメントを受け付けていません

The LuViRA Dataset: Synchronized Vision, Radio, and Audio Sensors for Indoor Localization

要約 私たちは、正確かつ堅牢な屋内位置特定のための同期された多感覚データセット、 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS, eess.SP | The LuViRA Dataset: Synchronized Vision, Radio, and Audio Sensors for Indoor Localization はコメントを受け付けていません

Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention

要約 顔と声が互いに密接に関連しているため、視聴覚融合を使用した個人または身元確 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention はコメントを受け付けていません

Automatic Speech Recognition System-Independent Word Error Rate Estimation

要約 単語誤り率 (WER) は、自動音声認識 (ASR) システムによって生成 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic Speech Recognition System-Independent Word Error Rate Estimation はコメントを受け付けていません