cs.MM」カテゴリーアーカイブ

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning はコメントを受け付けていません

K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling

要約 歌詞の翻訳は、1 世紀以上にわたって研究されてきた分野であり、現在、計算言 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling はコメントを受け付けていません

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis はコメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation はコメントを受け付けていません

Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation

要約 拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation はコメントを受け付けていません

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation はコメントを受け付けていません

Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping

要約 私たちは、特定の地理的位置で知覚される可能性が最も高い音を予測することを含 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping はコメントを受け付けていません

Sound Source Localization is All about Cross-Modal Alignment

要約 人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識で … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Sound Source Localization is All about Cross-Modal Alignment はコメントを受け付けていません

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings

要約 身体行動言語は重要な社会的合図であり、その自動分析は人工知能システムの理解 … 続きを読む

カテゴリー: cs.CV, cs.HC, cs.MM | MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings はコメントを受け付けていません