cs.MM」カテゴリーアーカイブ

Unveiling the Hidden Realm: Self-supervised Skeleton-based Action Recognition in Occluded Environments

要約 動作認識方法を自律ロボット システムに統合するには、ターゲットの遮蔽を伴う … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Unveiling the Hidden Realm: Self-supervised Skeleton-based Action Recognition in Occluded Environments はコメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis はコメントを受け付けていません

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning はコメントを受け付けていません

K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling

要約 歌詞の翻訳は、1 世紀以上にわたって研究されてきた分野であり、現在、計算言 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling はコメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis はコメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation はコメントを受け付けていません

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

要約 拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation はコメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation はコメントを受け付けていません

Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping

要約 私たちは、特定の地理的位置で知覚される可能性が最も高い音を予測することを含 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping はコメントを受け付けていません