cs.SD」カテゴリーアーカイブ

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability はコメントを受け付けていません

Conformers are All You Need for Visual Speech Recognition

要約 視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。 下位レベル … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | Conformers are All You Need for Visual Speech Recognition はコメントを受け付けていません

Extending Whisper with prompt tuning to target-speaker ASR

要約 対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Extending Whisper with prompt tuning to target-speaker ASR はコメントを受け付けていません

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization

要約 最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization はコメントを受け付けていません

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification

要約 事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification はコメントを受け付けていません

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

要約 バニラ フュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory はコメントを受け付けていません

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces

要約 自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られ … 続きを読む

カテゴリー: cs.CL, cs.SD | Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces はコメントを受け付けていません

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

要約 会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations はコメントを受け付けていません

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

要約 最近、オーディオビジュアル セグメンテーション (AVS) タスクが導入さ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation はコメントを受け付けていません

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism

要約 逐次データのディープラーニングの最近の進歩により、人間が話すリアルなビデオ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism はコメントを受け付けていません