「cs.MM」カテゴリーアーカイブ

WorDepth: Variational Language Prior for Monocular Depth Estimation

投稿日: 2024年4月8日作成者: jarxiv

要約単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

WorDepth: Variational Language Prior for Monocular Depth Estimation

投稿日: 2024年4月5日作成者: jarxiv

要約 1枚の画像からの3次元（3D）再構成は、スケールなどの曖昧さを内在する非投 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss

投稿日: 2024年4月4日作成者: jarxiv

要約最近の研究では、イベントカメラによる高画質撮像の改善に焦点が当てられており … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

投稿日: 2024年4月4日作成者: jarxiv

要約本稿では、ラベル付けされていない動画から生成されるイベントキャプションとそ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

投稿日: 2024年4月3日作成者: jarxiv

要約大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

投稿日: 2024年4月3日作成者: jarxiv

要約急速に進化するマルチモーダル大規模言語モデル (LLM) では、音楽の理解 … 続きを読む →

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models

投稿日: 2024年4月3日作成者: jarxiv

要約テキストから画像への生成モデルの使用が急増しているため、著作権を侵害するコ … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV, cs.MM | コメントを受け付けていません

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models

投稿日: 2024年4月3日作成者: jarxiv

要約この論文は、会話におけるマルチモーダル感情原因分析に関する SemEval … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models

投稿日: 2024年4月2日作成者: jarxiv

要約ビデオの質問応答は、ビデオ理解の分野における基本的なタスクです。 Vide … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization

投稿日: 2024年4月2日作成者: jarxiv

要約パーソナライズされた生成パラダイムにより、デザイナーは、いくつかの画像に対 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

WorDepth: Variational Language Prior for Monocular Depth Estimation

WorDepth: Variational Language Prior for Monocular Depth Estimation

Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models

Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models

Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization

最近の投稿

最近のコメント

アーカイブ

カテゴリー