投稿者「jarxiv」のアーカイブ

Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness

要約 図表質問応答(CQA)は、視覚言語理解の重要な分野である。しかし、この分野 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | コメントする

AID: Attention Interpolation of Text-to-Image Diffusion

要約 条件拡散モデルは、様々な環境において未見の画像を作成し、画像補間を支援する … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

HyperCMR: Enhanced Multi-Contrast CMR Reconstruction with Eagle Loss

要約 心臓磁気共鳴画像法(CMRI)の画像取得を高速化することは重要な課題である … 続きを読む

カテゴリー: cs.CV, eess.IV | コメントする

Scattering Spectra Models for Physics

要約 物理学者は、パラメータ推論や場の新しい実像の生成など、多くの作業において確 … 続きを読む

カテゴリー: astro-ph.IM, cs.CV, cs.LG, physics.data-an | コメントする

Unlearnable 3D Point Clouds: Class-wise Transformation Is All You Need

要約 従来の学習不可能な戦略は、2D画像データに対する不正ユーザーの学習を防止す … 続きを読む

カテゴリー: cs.CV | コメントする

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

要約 今日のロボットシミュレーションは、多様なシミュレーションタスクとシーンを作 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

DiffusionPID: Interpreting Diffusion via Partial Information Decomposition

要約 テキストから画像への拡散モデルは、テキスト入力から自然な画像を生成する上で … 続きを読む

カテゴリー: cs.CV | コメントする

Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models

要約 大規模視覚言語モデル(LVLM)は、マルチモーダル入力をキャプチャし、推論 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

Estimating Body and Hand Motion in an Ego-sensed World

要約 我々は、ヘッドマウントデバイスから人間の動きを推定するシステムEgoAll … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

Learning 3D Perception from Others’ Predictions

要約 実世界環境における正確な3D物体検出には、高品質で膨大な量のアノテーション … 続きを読む

カテゴリー: cs.CV | コメントする