eess.AS」カテゴリーアーカイブ

Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models

要約 警告: この文書には不快な内容のテキストが含まれている可能性があります。 … 続きを読む

カテゴリー: cs.CL, eess.AS | Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models はコメントを受け付けていません

WavLLM: Towards Robust and Adaptive Speech Large Language Model

要約 大規模言語モデル (LLM) の最近の進歩は、自然言語処理の分野に革命をも … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | WavLLM: Towards Robust and Adaptive Speech Large Language Model はコメントを受け付けていません

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

要約 最近、さまざまな配布外シナリオを条件としたユニバーサル波形生成タスクが研究 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation はコメントを受け付けていません

Robust online reconstruction of continuous-time signals from a lean spike train ensemble code

要約 動物の感覚刺激はニューロンによってスパイク列に符号化され、スパース性、エネ … 続きを読む

カテゴリー: cs.AI, cs.NE, cs.SD, eess.AS | Robust online reconstruction of continuous-time signals from a lean spike train ensemble code はコメントを受け付けていません

Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality

要約 人間の対話において、ジェスチャは、会話のリズムをマークしたり、重要な要素を … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.SD, eess.AS | Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality はコメントを受け付けていません

Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey

要約 Transformers LLM の大幅な進歩により、NLP はテキスト生 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, eess.AS | Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey はコメントを受け付けていません

PRESENT: Zero-Shot Text-to-Prosody Control

要約 音声合成においてきめ細かい韻律制御を実現するための現在の戦略には、追加のス … 続きを読む

カテゴリー: cs.LG, eess.AS | PRESENT: Zero-Shot Text-to-Prosody Control はコメントを受け付けていません

Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors

要約 発話速度は、性別、年齢、方言などの社会的カテゴリーによって異なる一方、発話 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors はコメントを受け付けていません

BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding

要約 音声自己教師あり学習 (SSL) は、複数の下流タスクで最先端 (SOTA … 続きを読む

カテゴリー: cs.AI, eess.AS | BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding はコメントを受け付けていません

VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders

要約 音声合成における敵対的生成ネットワーク (GAN) の導入以来、目覚ましい … 続きを読む

カテゴリー: cs.AI, eess.AS | VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders はコメントを受け付けていません