Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

要約

人間は推論を容易にするために絵を描きます。幾何学の問題を解くときに補助線を描きます。
私たちは地図上で推論するときにマークを付けたり丸で囲んだりします。
私たちはアイデアを拡張し、限られた容量の作業記憶を軽減するためにスケッチを使用します。
ただし、そのようなアクションは現在のマルチモーダル言語モデル (LM) にはありません。
現在の思考連鎖とツール使用パラダイムでは、中間推論ステップとしてテキストのみが使用されます。
この作業では、マルチモーダル LM に視覚的なスケッチパッドとスケッチパッド上に描画するツールを提供するフレームワークである Sketchpad を紹介します。
LM は、描画した視覚的成果物に従って計画と推論を実行します。
テキストから画像へのモデルを使用して LM が描画できるようにする以前の研究とは異なり、Sketchpad では LM が線、ボックス、マークなどを使用して描画できるため、人間のスケッチに近く、推論が容易になります。
Sketchpad は、視覚認識と推論をさらに強化するために、スケッチ プロセス中に専門の視覚モデルを使用することもできます (例: オブジェクト検出モデルで境界ボックスを描画、セグメンテーション モデルでマスクを描画)。
私たちは、さまざまな数学タスク (幾何学、関数、グラフ、チェスなど) と複雑な視覚的推論タスクを実験します。
Sketchpad は、スケッチのない強力な基本モデルに比べてすべてのタスクのパフォーマンスを大幅に向上させ、数学タスクでは平均 12.7%、視覚タスクでは 8.6% の向上をもたらしました。
GPT-4o と Sketchpad は、V*Bench (80.3%)、BLINK 空間推論 (83.9%)、および視覚的対応 (80.8%) を含むすべてのタスクで最先端の技術を確立します。
すべてのコードとデータは https://visualsketchpad.github.io/ にあります。

要約(オリジナル)

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity working memory. However, such actions are missing in current multimodal language models (LMs). Current chain-of-thought and tool-use paradigms only use text as intermediate reasoning steps. In this work, we introduce Sketchpad, a framework that gives multimodal LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts planning and reasoning according to the visual artifacts it has drawn. Different from prior work, which uses text-to-image models to enable LMs to draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is closer to human sketching and better facilitates reasoning. Sketchpad can also use specialist vision models during the sketching process (e.g., draw bounding boxes with object detection models, draw masks with segmentation models), to further enhance visual perception and reasoning. We experiment with a wide range of math tasks (including geometry, functions, graphs, and chess) and complex visual reasoning tasks. Sketchpad substantially improves performance on all tasks over strong base models with no sketching, yielding an average gain of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in https://visualsketchpad.github.io/.

arxiv情報

著者 Yushi Hu,Weijia Shi,Xingyu Fu,Dan Roth,Mari Ostendorf,Luke Zettlemoyer,Noah A Smith,Ranjay Krishna
発行日 2024-06-13 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク