cs.CV」カテゴリーアーカイブ

What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

要約 手続き的なアクティビティを理解するには、アクションステップがシーンをどのよ … 続きを読む

カテゴリー: cs.CV | What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning はコメントを受け付けていません

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?

要約 マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? はコメントを受け付けていません

Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920

要約 この記事では、デジタル化された教会の移動記録を使用して、1800年から19 … 続きを読む

カテゴリー: cs.CV, I.4.6, J.5 | Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920 はコメントを受け付けていません

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards

要約 大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Reinforcing Multimodal Understanding and Generation with Dual Self-rewards はコメントを受け付けていません

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design

要約 手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。 既存の … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design はコメントを受け付けていません

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

要約 マルチモーダル大手言語モデル(MLLM)は、さまざまなマルチモーダルタスク … 続きを読む

カテゴリー: cs.CV | SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence はコメントを受け付けていません

CyberV: Cybernetics for Test-time Scaling in Video Understanding

要約 現在のマルチモーダル大手言語モデル(MLLMS)は、テスト時に計算的な要求 … 続きを読む

カテゴリー: cs.CV | CyberV: Cybernetics for Test-time Scaling in Video Understanding はコメントを受け付けていません

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

要約 テキストツーイメージ(T2I)モデルは、テキストプロンプトに沿った高品質の … 続きを読む

カテゴリー: cs.CV | OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation はコメントを受け付けていません

Real-time Localization of a Soccer Ball from a Single Camera

要約 単一のブロードキャストカメラからのリアルタイムの3次元フットボール軌道再構 … 続きを読む

カテゴリー: cs.CV, cs.LG | Real-time Localization of a Soccer Ball from a Single Camera はコメントを受け付けていません

CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray

要約 CXR-LTシリーズは、胸部X線(CXR)を使用した肺疾患の分類を強化する … 続きを読む

カテゴリー: cs.CV, cs.LG | CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray はコメントを受け付けていません