「cs.SD」カテゴリーアーカイブ

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

投稿日: 2024年3月20日作成者: jarxiv

要約自己教師あり学習 (SSL) は、コンピュータービジョンや自然言語処理な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Comprehensive Evaluation of Augmentations for Robust OOD Self-Supervised Contrastive Phonocardiogram Representation Learning

投稿日: 2024年3月19日作成者: jarxiv

要約最近の研究活動の増加にもかかわらず、深層学習モデルは医療などのいくつかの実 … 続きを読む →

カテゴリー: cs.LG, cs.SD, q-bio.QM | コメントを受け付けていません

Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models

投稿日: 2024年3月19日作成者: jarxiv

要約マルチソース拡散モデル (MSDM) を使用すると、一貫したソースのセット … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

A low latency attention module for streaming self-supervised speech representation learning

投稿日: 2024年3月19日作成者: jarxiv

要約トランスフォーマーは深層学習の基本的な構成要素であり、アテンションメカニ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering

投稿日: 2024年3月19日作成者: jarxiv

要約音声質問応答 (SQA) は、マシンが特定の音声パッセージ内の回答範囲を見 … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | コメントを受け付けていません

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

投稿日: 2024年3月19日作成者: jarxiv

要約自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

投稿日: 2024年3月19日作成者: jarxiv

要約音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。音楽とシ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics

投稿日: 2024年3月18日作成者: jarxiv

要約ディープラーニング (DL) モデルは、環境の健全性と生物多様性を診断する … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

投稿日: 2024年3月18日作成者: jarxiv

要約ビデオにおける視聴覚感情認識 (ER) には、単峰性のパフォーマンスに比べ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

投稿日: 2024年3月18日作成者: jarxiv

要約私たちは、与えられた音楽に基づいて非常に長いダンスシーケンスを生成できる … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

A Comprehensive Evaluation of Augmentations for Robust OOD Self-Supervised Contrastive Phonocardiogram Representation Learning

Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models

A low latency attention module for streaming self-supervised speech representation learning

SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

最近の投稿

最近のコメント

アーカイブ

カテゴリー