cs.MM」カテゴリーアーカイブ

WorDepth: Variational Language Prior for Monocular Depth Estimation

要約 1枚の画像からの3次元(3D)再構成は、スケールなどの曖昧さを内在する非投 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | WorDepth: Variational Language Prior for Monocular Depth Estimation はコメントを受け付けていません

Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss

要約 最近の研究では、イベントカメラによる高画質撮像の改善に焦点が当てられており … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss はコメントを受け付けていません

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

要約 本稿では、ラベル付けされていない動画から生成されるイベントキャプションとそ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement はコメントを受け付けていません

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response

要約 大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response はコメントを受け付けていません

MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

要約 急速に進化するマルチモーダル大規模言語モデル (LLM) では、音楽の理解 … 続きを読む

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music はコメントを受け付けていません

VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models

要約 テキストから画像への生成モデルの使用が急増しているため、著作権を侵害するコ … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.MM | VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models はコメントを受け付けていません

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models

要約 この論文は、会話におけるマルチモーダル感情原因分析に関する SemEval … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models はコメントを受け付けていません

Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models

要約 ビデオの質問応答は、ビデオ理解の分野における基本的なタスクです。 Vide … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models はコメントを受け付けていません

Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization

要約 パーソナライズされた生成パラダイムにより、デザイナーは、いくつかの画像に対 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization はコメントを受け付けていません

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

要約 人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar はコメントを受け付けていません