Visually Descriptive Language Model for Vector Graphics Reasoning

要約

大きな進歩にもかかわらず、大規模なマルチモーダルモデル(LMM)は、形状、サイズ、レイアウトに焦点を当てた低レベルの視覚的知覚と、セマンティクスやロジックなどの高レベルの言語推論の間のギャップを埋めるのに苦労しています。
この制限は、幾何学的特性の比較や視覚的推論の問題を解決するなど、正確な視覚的認識を必要とするタスクで明らかです。
この障害モードを研究するために、ベクトルグラフィックス – ウェブ、デザイン、OS環境のLMMベースのタスクで一般的な2Dオブジェクトと形状で構成される画像に焦点を当てます。
2つの重要な研究の質問を特定します。正確な視覚的認識をどのように有効にすることができ、このような低レベルの認識に基づいて高レベルの推論を促進するにはどうすればよいですか?
細かい視覚的な詳細をキャプチャするために、視覚シーンの正確なエンコードにスケーラブルベクトルグラフィックス(SVG)を使用します。
ただし、SVGはLMMSによってゼロショットの方法で容易に解釈できません。
これに取り組むために、視覚的に説明的な言語モデル(VDLM)を提案します。これにより、中間のテキスト表現としてPrimal Visual Actions(PVD)を紹介します。
PVDは、SVGをプリミティブ属性(形状、位置、測定など)と対応する値で構成されるテキストベースの抽象化に変換します。
PVDは、タスクに依存しない合成データを使用して学習でき、ベクトルグラフィックス全体で普遍的な視覚的なプリミティブを表します。
この抽象化はより構造化されており、ゼロショット一般化のための基礎モデルによる直接的な解釈が可能になります。
人間が解決したデータがなければ、経験的結果は、VDLMがさまざまなマルチモーダル認識や推論タスクでGPT-4Oのような最先端のLMMを大幅に改善することを示しています。
VDLMの広範な分析は、その脱茎の認識と推論により、解釈性が向上したことを示しています。
また、PVDの品質とタスクのパフォーマンスとの間に正の相関関係を示します。
プロジェクトページ:https://mikewangwzhl.github.io/vdlm/

要約(オリジナル)

Despite significant advancements, large multimodal models (LMMs) still struggle to bridge the gap between low-level visual perception — focusing on shapes, sizes, and layouts — and high-level language reasoning, such as semantics and logic. This limitation is evident in tasks that require precise visual perception, like comparing geometric properties or solving visual reasoning problems. To study this failure mode, we focus on vector graphics — images composed of 2D objects and shapes, prevalent in LMM-based tasks in web, design, and OS environments. We identify two key research questions: how can we enable precise visual perception, and how can we facilitate high-level reasoning based on such low-level perceptions? To capture fine visual details, we use Scalable Vector Graphics (SVG) for accurate encoding of visual scenes. However, SVGs are not readily interpretable by LMMs in a zero-shot manner. To tackle this, we propose the Visually Descriptive Language Model (VDLM), which introduces a Primal Visual Description (PVD) as an intermediate textual representation. PVD translates SVGs into a text-based abstraction consisting of primitive attributes (e.g., shape, position, measurement) and their corresponding values. PVD can be learned using task-agnostic synthesized data and represents visual primitives that are universal across vector graphics. This abstraction is more structured, allowing for direct interpretation by foundation models for zero-shot generalization. Without human-annotated data, empirical results show that VDLM significantly improves state-of-the-art LMMs like GPT-4o on various multimodal perception and reasoning tasks. Extensive analyses of VDLM show improved interpretability due to its disentangled perception and reasoning. We also demonstrate a positive correlation between PVD quality and task performance. Project page: https://mikewangwzhl.github.io/VDLM/

arxiv情報

著者 Zhenhailong Wang,Joy Hsu,Xingyao Wang,Kuan-Hao Huang,Manling Li,Jiajun Wu,Heng Ji
発行日 2025-06-12 17:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク