cs.SD」カテゴリーアーカイブ

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model

要約 ほとんどのゼロショット マルチスピーカー TTS (ZS-TTS) システ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model はコメントを受け付けていません

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations はコメントを受け付けていません

Harder or Different? Understanding Generalization of Audio Deepfake Detection

要約 最近の研究では、音声ディープフェイク検出における重要な問題が明らかになりま … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Harder or Different? Understanding Generalization of Audio Deepfake Detection はコメントを受け付けていません

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers はコメントを受け付けていません

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability

要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability はコメントを受け付けていません

RECAP: Retrieval-Augmented Audio Captioning

要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | RECAP: Retrieval-Augmented Audio Captioning はコメントを受け付けていません

Proactive Detection of Voice Cloning with Localized Watermarking

要約 急速に進化する音声生成モデルの分野では、音声複製のリスクに対して音声の信頼 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.SD | Proactive Detection of Voice Cloning with Localized Watermarking はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません

HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids

要約 この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型デ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids はコメントを受け付けていません

The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement

要約 改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement はコメントを受け付けていません