eess.AS」カテゴリーアーカイブ

Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality

要約 人間の対話において、ジェスチャは、会話のリズムをマークしたり、重要な要素を … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.SD, eess.AS | Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality はコメントを受け付けていません

Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey

要約 Transformers LLM の大幅な進歩により、NLP はテキスト生 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, eess.AS | Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey はコメントを受け付けていません

PRESENT: Zero-Shot Text-to-Prosody Control

要約 音声合成においてきめ細かい韻律制御を実現するための現在の戦略には、追加のス … 続きを読む

カテゴリー: cs.LG, eess.AS | PRESENT: Zero-Shot Text-to-Prosody Control はコメントを受け付けていません

Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors

要約 発話速度は、性別、年齢、方言などの社会的カテゴリーによって異なる一方、発話 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors はコメントを受け付けていません

BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding

要約 音声自己教師あり学習 (SSL) は、複数の下流タスクで最先端 (SOTA … 続きを読む

カテゴリー: cs.AI, eess.AS | BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding はコメントを受け付けていません

VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders

要約 音声合成における敵対的生成ネットワーク (GAN) の導入以来、目覚ましい … 続きを読む

カテゴリー: cs.AI, eess.AS | VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders はコメントを受け付けていません

Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement

要約 自己教師あり学習は音声タスクにおいて優れたパフォーマンスを示していますが、 … 続きを読む

カテゴリー: cs.AI, eess.AS | Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement はコメントを受け付けていません

Temporal Variability and Multi-Viewed Self-Supervised Representations to Tackle the ASVspoof5 Deepfake Challenge

要約 ASVspoof シリーズの第 5 版である ASVspoof5 は、世界 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Temporal Variability and Multi-Viewed Self-Supervised Representations to Tackle the ASVspoof5 Deepfake Challenge はコメントを受け付けていません

Neural Speech and Audio Coding

要約 この論文では、ニューラル音声およびオーディオコーディングシステムの領域内で … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | Neural Speech and Audio Coding はコメントを受け付けていません

PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping

要約 サウンドスケープは、人がその場所で知覚する音響環境によって定義されます。 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping はコメントを受け付けていません