月別アーカイブ: 2024年6月

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

要約 大規模なビデオ言語モデル (VLM) の事前トレーニングは、さまざまなダウ … 続きを読む

カテゴリー: cs.CL, cs.CV | Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment はコメントを受け付けていません

Shortcut Learning in Medical Image Segmentation

要約 ショートカット学習とは、機械学習モデルが、トレーニング セットを超えて一般 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Shortcut Learning in Medical Image Segmentation はコメントを受け付けていません

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

要約 グラフィカル ユーザー インターフェイス (GUI) は、デジタル デバイ … 続きを読む

カテゴリー: cs.CL, cs.CV | Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding はコメントを受け付けていません

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

要約 Web スクリーンショットやポスターなどとして一般的に見られるマルチパネル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA はコメントを受け付けていません

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

要約 GPT-4V などのマルチモーダル大規模言語モデル (MLLM) の急速な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale はコメントを受け付けていません

Human Modelling and Pose Estimation Overview

要約 人間のモデリングと姿勢推定は、コンピューター ビジョン、コンピューター グ … 続きを読む

カテゴリー: cs.CV, I.4.8 | Human Modelling and Pose Estimation Overview はコメントを受け付けていません

Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation

要約 継続的学習は、以前のタスクのパフォーマンス低下を最小限に抑えながら新しいタ … 続きを読む

カテゴリー: cs.CV | Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation はコメントを受け付けていません

Compositional Image Decomposition with Diffusion Models

要約 自然のシーンの画像が与えられると、それをオブジェクト、照明、影、前景などの … 続きを読む

カテゴリー: cs.CV, cs.LG | Compositional Image Decomposition with Diffusion Models はコメントを受け付けていません

PNeRV: A Polynomial Neural Representation for Videos

要約 ビデオ データ上の Implicit Neural Representat … 続きを読む

カテゴリー: cs.CV | PNeRV: A Polynomial Neural Representation for Videos はコメントを受け付けていません

Mapping Land Naturalness from Sentinel-2 using Deep Contextual and Geographical Priors

要約 ここ数十年で、気候変動の原因と結果は加速し、前例のない規模で地球に影響を与 … 続きを読む

カテゴリー: cs.CV, cs.LG | Mapping Land Naturalness from Sentinel-2 using Deep Contextual and Geographical Priors はコメントを受け付けていません