「eess.AS」カテゴリーアーカイブ

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

投稿日: 2023年12月14日作成者: jarxiv

要約人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む →

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Ultra Low Complexity Deep Learning Based Noise Suppression

投稿日: 2023年12月14日作成者: jarxiv

要約この論文では、リソースに制約のあるデバイス上でリアルタイムの音声強調を行う … 続きを読む →

カテゴリー: cs.LG, eess.AS, eess.SP | コメントを受け付けていません

Conformers are All You Need for Visual Speech Recognition

投稿日: 2023年12月14日作成者: jarxiv

要約視覚的音声認識モデルは、階層的な方法で視覚的特徴を抽出します。下位レベル … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Extending Whisper with prompt tuning to target-speaker ASR

投稿日: 2023年12月14日作成者: jarxiv

要約対象話者自動音声認識 (ASR) は、複数の話者の重複した発話から対象話者 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization

投稿日: 2023年12月14日作成者: jarxiv

要約最近、エンドツーエンドのニューラルダイアライゼーション (EEND) が導 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification

投稿日: 2023年12月13日作成者: jarxiv

要約事前トレーニングされた Transformer ベースの音声モデルは、自動 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

投稿日: 2023年12月13日作成者: jarxiv

要約バニラフュージョン手法は、依然として主流のオーディオビジュアルタスクの大 … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Creating Spoken Dialog Systems in Ultra-Low Resourced Settings

投稿日: 2023年12月12日作成者: jarxiv

要約自動音声認識 (ASR) システムは、現在さまざまなアプリケーション、特に … 続きを読む →

カテゴリー: cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

投稿日: 2023年12月12日作成者: jarxiv

要約会話におけるマルチモーダル感情認識 (MERC) の主なタスクは、テキスト … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

投稿日: 2023年12月12日作成者: jarxiv

要約最近、オーディオビジュアルセグメンテーション (AVS) タスクが導入さ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

Ultra Low Complexity Deep Learning Based Noise Suppression

Conformers are All You Need for Visual Speech Recognition

Extending Whisper with prompt tuning to target-speaker ASR

TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization

Self-supervised Adaptive Pre-training of Multilingual Speech Models for Language and Dialect Identification

More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module for Multimodal Fusion Based on Signal Theory

Creating Spoken Dialog Systems in Ultra-Low Resourced Settings

Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー