「cs.SD」カテゴリーアーカイブ

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

投稿日: 2023年12月14日作成者: jarxiv

要約人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む →

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Conformers are All You Need for Visual Speech Recognition

投稿日: 2023年12月14日作成者: jarxiv

要約視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。下位レベル … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Extending Whisper with prompt tuning to target-speaker ASR

投稿日: 2023年12月14日作成者: jarxiv

要約対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization

投稿日: 2023年12月14日作成者: jarxiv

要約最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification

投稿日: 2023年12月13日作成者: jarxiv

要約事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

投稿日: 2023年12月13日作成者: jarxiv

要約バニラフュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces

投稿日: 2023年12月12日作成者: jarxiv

要約自己教師あり音声表現は話者情報と音声情報の両方をエンコードすることが知られ … 続きを読む →

カテゴリー: cs.CL, cs.SD | コメントを受け付けていません

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

投稿日: 2023年12月12日作成者: jarxiv

要約会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

投稿日: 2023年12月12日作成者: jarxiv

要約最近、オーディオビジュアルセグメンテーション (AVS) タスクが導入さ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism

投稿日: 2023年12月12日作成者: jarxiv

要約逐次データのディープラーニングの最近の進歩により、人間が話すリアルなビデオ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

Conformers are All You Need for Visual Speech Recognition

Extending Whisper with prompt tuning to target-speaker ASR

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism

最近の投稿

最近のコメント

アーカイブ

カテゴリー