「eess.AS」カテゴリーアーカイブ

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

投稿日: 2024年6月10日作成者: jarxiv

要約ほとんどのゼロショットマルチスピーカー TTS (ZS-TTS) システ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LLM-based speaker diarization correction: A generalizable approach

投稿日: 2024年6月10日作成者: jarxiv

要約話者ダイアライゼーションは、自動音声認識 (ASR) ツールを使用して書き … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

投稿日: 2024年6月10日作成者: jarxiv

要約音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Harder or Different? Understanding Generalization of Audio Deepfake Detection

投稿日: 2024年6月10日作成者: jarxiv

要約最近の研究では、音声ディープフェイク検出における重要な問題が明らかになりま … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

投稿日: 2024年6月10日作成者: jarxiv

要約事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability

投稿日: 2024年6月7日作成者: jarxiv

要約人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む →

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition

投稿日: 2024年6月7日作成者: jarxiv

要約機械学習の進歩により、自動音声認識 (ASR) などのさまざまなテキストお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

RECAP: Retrieval-Augmented Audio Captioning

投稿日: 2024年6月7日作成者: jarxiv

要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Robots Have Been Seen and Not Heard: Effects of Consequential Sounds on Human-Perception of Robots

投稿日: 2024年6月6日作成者: jarxiv

要約多くの人は、ロボットがかなり静かに動くこと、あるいはロボットのビデオで見た … 続きを読む →

カテゴリー: cs.RO, eess.AS | コメントを受け付けていません

HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids

投稿日: 2024年6月6日作成者: jarxiv

要約この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型デ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

LLM-based speaker diarization correction: A generalizable approach

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

Harder or Different? Understanding Generalization of Audio Deepfake Detection

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability

Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition

RECAP: Retrieval-Augmented Audio Captioning

Robots Have Been Seen and Not Heard: Effects of Consequential Sounds on Human-Perception of Robots

HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids

最近の投稿

最近のコメント

アーカイブ

カテゴリー