要約
視覚的思考を伴う質問が提示されると、人間は自然に推論方法を切り替え、しばしば頭の中でイメージを形成したり視覚補助具を描画したりします。
大規模な言語モデルは、中間推論を思考の連鎖としてテキストで表現することにより、算術推論と記号推論で有望な結果を示していますが、大規模なマルチモーダル事前トレーニングを行ったとしても、視覚推論によって簡単に解決できるテキストクエリに答えるためにこの機能を拡張するのは困難です。
私たちは、モダリティ全体でマルチモーダルな大規模言語モデルの視覚的推論機能を解放するための、ホワイトボードの思考プロンプトという簡単な方法を紹介します。
ホワイトボード思考プロンプトは、推論ステップを画像として描画するための比喩的な「ホワイトボード」を備えたマルチモーダルな大規模言語モデルを提供し、これらの画像をモデルに返してさらなる処理を行います。
これは、デモや特殊なモジュールを使用せずに、代わりに Matplotlib や Turtle などのライブラリを使用してコードを作成するモデルの既存の機能を活用して実現できることがわかりました。
このシンプルなアプローチは、視覚的および空間的推論を伴う 4 つの困難な自然言語タスクに対する最先端の結果を示しています。
思考連鎖を使用した GPT-4o が劇的に失敗する複数の設定を特定しました。その中には、$0\%$ の精度を達成する複数の設定が含まれますが、ホワイトボード オブ 思考を使用すると、これらの同じ設定で最大 $92\%$ の精度が可能になります。
この手法が成功する場所とエラーの原因について詳しく説明します。
要約(オリジナル)
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard’ to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models’ existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves $0\%$ accuracy, while whiteboard-of-thought enables up to $92\%$ accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.
arxiv情報
著者 | Sachit Menon,Richard Zemel,Carl Vondrick |
発行日 | 2024-06-20 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google