「cs.MM」カテゴリーアーカイブ

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

投稿日: 2023年9月21日作成者: jarxiv

要約近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling

投稿日: 2023年9月21日作成者: jarxiv

要約歌詞の翻訳は、1 世紀以上にわたって研究されてきた分野であり、現在、計算言 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM | コメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

投稿日: 2023年9月21日作成者: jarxiv

要約拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2023年9月21日作成者: jarxiv

要約 AI コミュニティは、大規模なマルチモーダルデータセットを活用した強力な … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

投稿日: 2023年9月21日作成者: jarxiv

要約事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

投稿日: 2023年9月20日作成者: jarxiv

要約拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

投稿日: 2023年9月20日作成者: jarxiv

要約事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping

投稿日: 2023年9月20日作成者: jarxiv

要約私たちは、特定の地理的位置で知覚される可能性が最も高い音を予測することを含 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Sound Source Localization is All about Cross-Modal Alignment

投稿日: 2023年9月20日作成者: jarxiv

要約人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識で … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings

投稿日: 2023年9月20日作成者: jarxiv

要約身体行動言語は重要な社会的合図であり、その自動分析は人工知能システムの理解 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

A Large-scale Dataset for Audio-Language Representation Learning

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping

Sound Source Localization is All about Cross-Modal Alignment

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings

最近の投稿

最近のコメント

アーカイブ

カテゴリー