cs.SD」カテゴリーアーカイブ

Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models

要約 マルチソース拡散モデル (MSDM) を使用すると、一貫したソースのセット … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models はコメントを受け付けていません

A low latency attention module for streaming self-supervised speech representation learning

要約 トランスフォーマーは深層学習の基本的な構成要素であり、アテンション メカニ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | A low latency attention module for streaming self-supervised speech representation learning はコメントを受け付けていません

SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering

要約 音声質問応答 (SQA) は、マシンが特定の音声パッセージ内の回答範囲を見 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS | SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering はコメントを受け付けていません

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages

要約 自己監視型音声エンコーダのコードスイッチング機能を直接評価するために設計さ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages はコメントを受け付けていません

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

要約 音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。 音楽とシ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM, cs.SD, eess.AS | QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation はコメントを受け付けていません

BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics

要約 ディープラーニング (DL) モデルは、環境の健全性と生物多様性を診断する … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | BirdSet: A Multi-Task Benchmark for Classification in Avian Bioacoustics はコメントを受け付けていません

Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild

要約 ビデオにおける視聴覚感情認識 (ER) には、単峰性のパフォーマンスに比べ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Joint Multimodal Transformer for Dimensional Emotional Recognition in the Wild はコメントを受け付けていません

Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

要約 私たちは、与えられた音楽に基づいて非常に長いダンス シーケンスを生成できる … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS | Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives はコメントを受け付けていません

uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures

要約 マスクされたオートエンコーダー (MAE) は、ラベルのないデータから豊富 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures はコメントを受け付けていません

Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds

要約 マルチラベルの不均衡な分類は、機械学習において重大な課題を引き起こします。 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Mixture of Mixups for Multi-label Classification of Rare Anuran Sounds はコメントを受け付けていません