投稿者「jarxiv」のアーカイブ

Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models

要約 ビジョン言語モデル(VLM)は、言語のみの対応物の特性と同様の特性であるコ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models はコメントを受け付けていません

Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features

要約 LlavaやQwen-VLのような生成的大規模マルチモーダルモデル(LMM … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features はコメントを受け付けていません

Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations

要約 推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいてオブジェク … 続きを読む

カテゴリー: cs.AI, cs.CV | Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations はコメントを受け付けていません

What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

要約 手続き的なアクティビティを理解するには、アクションステップがシーンをどのよ … 続きを読む

カテゴリー: cs.CV | What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning はコメントを受け付けていません

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?

要約 マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? はコメントを受け付けていません

Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920

要約 この記事では、デジタル化された教会の移動記録を使用して、1800年から19 … 続きを読む

カテゴリー: cs.CV, I.4.6, J.5 | Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920 はコメントを受け付けていません

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards

要約 大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Reinforcing Multimodal Understanding and Generation with Dual Self-rewards はコメントを受け付けていません

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design

要約 手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。 既存の … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design はコメントを受け付けていません

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

要約 マルチモーダル大手言語モデル(MLLM)は、さまざまなマルチモーダルタスク … 続きを読む

カテゴリー: cs.CV | SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence はコメントを受け付けていません

CyberV: Cybernetics for Test-time Scaling in Video Understanding

要約 現在のマルチモーダル大手言語モデル(MLLMS)は、テスト時に計算的な要求 … 続きを読む

カテゴリー: cs.CV | CyberV: Cybernetics for Test-time Scaling in Video Understanding はコメントを受け付けていません