要約
大規模な言語モデル(LLM)に対する熱意を背景に、能力と欠点を科学的に評価する必要性が高まっています。
これは、トレーニング中にモデルが遭遇していないタスクを見つけることが困難であるため、一部は重要ではありません。
シンボリックグラフィックスプログラムを利用して、LLMの複数の空間的な推論スキルをテストするのに適したドメインを提案します。
コンピューターグラフィックスで人気があるこれらのプログラムは、視覚データを手続き的に生成します。
LLMは一般的なプログラムの統合と分析で印象的なスキルを示しますが、シンボリックグラフィックスプログラムは評価の新しい層を提供します。ビジョンエンコーダーなしで画像または3Dジオメトリに関するセマンティックな質問に答えるLLMの能力をテストすることができます。
象徴的なプログラムを意味的に理解するには、LLMSは「想像」する能力を所有し、対応するグラフィックコンテンツがローカルの曲率とストロークの象徴的な説明のみでどのように見えるかを理由にする必要があります。
このタスクを使用して、人間の努力を最小限に抑えて手続き的に構築された、シンボリックグラフィックスプログラムのセマンティックな視覚的理解のための大きなベンチマークを作成することにより、LLMSを評価します。
基礎となるプログラムに大きな変更を導入しながら、画像レベルのセマンティクスを不変のままにする画像の変換に特に重点が置かれています。
ベンチマークで商業およびオープンソースのLLMを評価して、プログラムの視覚的な出力について推論する能力を評価し、LLMが一般的にパフォーマンスを向上させることを発見しました。
最後に、この能力を改善するための新しい方法を紹介します – シンボリック指導チューニング(SIT)では、LLMには、シンボリックグラフィックスプログラムに関する事前に収集された命令データで微調整されています。
興味深いことに、SITは象徴的なプログラムに関するLLMの理解を改善するだけでなく、他のさまざまなベンチマークでの一般的な推論能力も向上させることがわかります。
要約(オリジナル)
Against the backdrop of enthusiasm for large language models (LLMs), there is a growing need to scientifically assess their capabilities and shortcomings. This is nontrivial in part because it is difficult to find tasks which the models have not encountered during training. Utilizing symbolic graphics programs, we propose a domain well-suited to test multiple spatial-semantic reasoning skills of LLMs. Popular in computer graphics, these programs procedurally generate visual data. While LLMs exhibit impressive skills in general program synthesis and analysis, symbolic graphics programs offer a new layer of evaluation: they allow us to test an LLM’s ability to answer semantic questions about the images or 3D geometries without a vision encoder. To semantically understand the symbolic programs, LLMs would need to possess the ability to ‘imagine’ and reason how the corresponding graphics content would look with only the symbolic description of the local curvatures and strokes. We use this task to evaluate LLMs by creating a large benchmark for the semantic visual understanding of symbolic graphics programs, built procedurally with minimal human effort. Particular emphasis is placed on transformations of images that leave the image level semantics invariant while introducing significant changes to the underlying program. We evaluate commercial and open-source LLMs on our benchmark to assess their ability to reason about visual output of programs, finding that LLMs considered stronger at reasoning generally perform better. Lastly, we introduce a novel method to improve this ability — Symbolic Instruction Tuning (SIT), in which the LLM is finetuned with pre-collected instruction data on symbolic graphics programs. Interestingly, we find that SIT not only improves LLM’s understanding on symbolic programs, but it also improves general reasoning ability on various other benchmarks.
arxiv情報
著者 | Zeju Qiu,Weiyang Liu,Haiwen Feng,Zhen Liu,Tim Z. Xiao,Katherine M. Collins,Joshua B. Tenenbaum,Adrian Weller,Michael J. Black,Bernhard Schölkopf |
発行日 | 2025-05-27 16:54:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google