要約
視覚言語モデル (\textsc{vlm}s) の可能性は、複雑なテキストベースの問題を処理する際に、特にこれらの問題が視覚的表現から恩恵を受ける場合には、十分に活用されていないことがよくあります。
(1) 問題から視覚的な図を作成し、(2) 問題を解決するために必要な手順を推測することによって、複雑なテキストベースの問題を解決する人間の能力に共鳴し、\textsc{Self-Imagine} を提案します。
単一のビジョン言語モデル (\textsc{vlm}) を活用して、HTML を使用して質問の構造化表現を生成し、次に HTML を画像としてレンダリングし、最後に同じ \vlm を使用して質問と質問の両方を使用して質問に回答します。
画像。
私たちのアプローチでは、追加のトレーニング データやトレーニングは必要ありません。
最先端の \textsc{vlm} を使用して、3 つの数学タスクと 9 つの汎用推論タスクでアプローチを評価します。
私たちのアプローチにより、すべての数学タスク (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) と大部分の汎用推論タスクで \textsc{vlm} のパフォーマンスが向上します。
他のタスクでは同等のパフォーマンスを達成しながら、0.4\% から 13.20\% 増加します。
コードとデータは https://github.com/snat1505027/self-imagine にあります。
要約(オリジナル)
The potential of Vision-Language Models (\textsc{vlm}s) often remains underutilized in handling complex text-based problems, particularly when these problems could benefit from visual representation. Resonating with humans’ ability to solve complex text-based problems by (1) creating a visual diagram from the problem and (2) deducing what steps they need to take to solve it, we propose \textsc{Self-Imagine}. We leverage a single Vision-Language Model (\textsc{vlm}) to generate a structured representation of the question using HTML, then render the HTML as an image, and finally use the same \vlm to answer the question using both the question and the image. Our approach does not require any additional training data or training. We evaluate our approach in three mathematics tasks and nine general-purpose reasoning tasks using state-of-the-art \textsc{vlm}. Our approach boosts the performance of \textsc{vlm} on all math tasks (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) and the majority of the general-purpose reasoning tasks by 0.4\% to 13.20\% while achieving comparable performance in other tasks. Code and data at https://github.com/snat1505027/self-imagine .
arxiv情報
著者 | Syeda Nahida Akter,Aman Madaan,Sangwu Lee,Yiming Yang,Eric Nyberg |
発行日 | 2024-01-16 00:46:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google