「cs.CV」カテゴリーアーカイブ

What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

投稿日: 2025年6月10日作成者: jarxiv

要約手続き的なアクティビティを理解するには、アクションステップがシーンをどのよ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?

投稿日: 2025年6月10日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、多様な問題ドメイン全体で優れた … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920

投稿日: 2025年6月10日作成者: jarxiv

要約この記事では、デジタル化された教会の移動記録を使用して、1800年から19 … 続きを読む →

カテゴリー: cs.CV, I.4.6, J.5 | コメントを受け付けていません

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards

投稿日: 2025年6月10日作成者: jarxiv

要約大規模な言語モデル（LLMS）に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design

投稿日: 2025年6月10日作成者: jarxiv

要約手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。既存の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

投稿日: 2025年6月10日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、さまざまなマルチモーダルタスク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CyberV: Cybernetics for Test-time Scaling in Video Understanding

投稿日: 2025年6月10日作成者: jarxiv

要約現在のマルチモーダル大手言語モデル（MLLMS）は、テスト時に計算的な要求 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

投稿日: 2025年6月10日作成者: jarxiv

要約テキストツーイメージ（T2I）モデルは、テキストプロンプトに沿った高品質の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Real-time Localization of a Soccer Ball from a Single Camera

投稿日: 2025年6月10日作成者: jarxiv

要約単一のブロードキャストカメラからのリアルタイムの3次元フットボール軌道再構 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray

投稿日: 2025年6月10日作成者: jarxiv

要約 CXR-LTシリーズは、胸部X線（CXR）を使用した肺疾患の分類を強化する … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?

Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

CyberV: Cybernetics for Test-time Scaling in Video Understanding

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Real-time Localization of a Soccer Ball from a Single Camera

CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray

最近の投稿

最近のコメント

アーカイブ

カテゴリー