要約
大規模なマルチモーダル モデルは、広範な視覚言語のベンチマークでは優れていますが、線の長さの比較や単純な迷路の解決など、低レベルの視覚的な詳細を正確に認識する必要があるタスクでは苦労することがよくあります。
特に、この障害モードは、ベクトル グラフィックス (純粋に 2D オブジェクトと形状で構成された画像) に関する質問応答タスクで持続します。
この課題に対処するために、ベクトル グラフィックスについてテキストベースの推論を実行する Visually Descriptive Language Model (VDLM) を提案します。
VDLM は、より正確な視覚的記述のためにスケーラブル ベクター グラフィックス (SVG) を利用し、まずエンコードに既製のラスターから SVG へのアルゴリズムを使用します。
既存の言語モデルはゼロショット設定では生の SVG を理解できないため、VDLM は、新しく導入されたプリミティブな属性 (形状、位置、測定など) を含む中間記号表現である Primal Visual description (PVD) を通じて、SVG を事前トレーニングされた言語モデルと橋渡しします。
対応する予測値とともに。
PVD はタスクに依存せず、すべてのベクター グラフィックスにわたって普遍的なビジュアル プリミティブを表します。
これは、手続き的に生成された (SVG、PVD) ペアで学習でき、複雑な推論タスクへの一般化のために LLM を直接使用することもできます。
画像をテキストベースの表現にキャストすることで、言語モデルの力を活用して、SVG からビジュアル プリミティブへの調整を学習し、目に見えない質問応答タスクに一般化することができます。
実証結果は、VDLM が、ベクター グラフィックス上のさまざまな低レベルのマルチモーダル認識および推論タスクにおいて、GPT-4V などの最先端の LMM と比較して、より強力なゼロショット パフォーマンスを達成することを示しています。
さらに、VDLM のパフォーマンスに関する広範な分析を提示し、私たちのフレームワークが、知覚と推論のプロセスが解きほぐされているため、より優れた解釈可能性を提供していることを示しています。
プロジェクトページ: https://mikewangwzhl.github.io/VDLM/
要約(オリジナル)
While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering tasks about vector graphics — images composed purely of 2D objects and shapes. To address this challenge, we propose the Visually Descriptive Language Model (VDLM), which performs text-based reasoning about vector graphics. VDLM leverages Scalable Vector Graphics (SVG) for a more precise visual description and first uses an off-the-shelf raster-to-SVG algorithm for encoding. Since existing language models cannot understand raw SVGs in a zero-shot setting, VDLM then bridges SVG with pretrained language models through a newly introduced intermediate symbolic representation, Primal Visual Description (PVD), comprising primitive attributes (e.g., shape, position, measurement) with their corresponding predicted values. PVD is task-agnostic and represents visual primitives that are universal across all vector graphics. It can be learned with procedurally generated (SVG, PVD) pairs and also enables the direct use of LLMs for generalization to complex reasoning tasks. By casting an image to a text-based representation, we can leverage the power of language models to learn alignment from SVG to visual primitives and generalize to unseen question-answering tasks. Empirical results show that VDLM achieves stronger zero-shot performance compared to state-of-the-art LMMs, such as GPT-4V, in various low-level multimodal perception and reasoning tasks on vector graphics. We additionally present extensive analyses on VDLM’s performance, demonstrating that our framework offers better interpretability due to its disentangled perception and reasoning processes. Project page: https://mikewangwzhl.github.io/VDLM/
arxiv情報
著者 | Zhenhailong Wang,Joy Hsu,Xingyao Wang,Kuan-Hao Huang,Manling Li,Jiajun Wu,Heng Ji |
発行日 | 2024-04-10 02:12:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google