Can We Generate Visual Programs Without Prompting LLMs?

要約

ビジュアル プログラミングは、LLM (大規模言語モデル) に、ビジュアル質問応答 (VQA) などのビジュアル タスク用の実行可能コードを生成するよう促します。
即時ベースの方法は改善が難しいと同時に信頼性が低く、時間と費用の両方がかかります。
私たちの目標は、1) 推論時にプロンプ​​トベースの LLM を使用せず、2) 大量のプログラムと回答の注釈を使用せずに、効率的なビジュアル プログラミング システムを開発することです。
私たちは、プログラムをテンプレートと呼ばれる高レベルのスキルと対応する引数に分離することに基づいて、合成データ拡張アプローチと代替プログラム生成方法を開発します。
私たちの結果は、データ拡張により、プロンプトのない小規模な LLM (約 10 億ドルのパラメーター) が最先端のモデルと競合し、さらに高速な推論という利点を備えていることを示しています。

要約(オリジナル)

Visual programming prompts LLMs (large language mod-els) to generate executable code for visual tasks like visual question answering (VQA). Prompt-based methods are difficult to improve while also being unreliable and costly in both time and money. Our goal is to develop an efficient visual programming system without 1) using prompt-based LLMs at inference time and 2) a large set of program and answer annotations. We develop a synthetic data augmentation approach and alternative program generation method based on decoupling programs into higher-level skills called templates and the corresponding arguments. Our results show that with data augmentation, prompt-free smaller LLMs ($\approx$ 1B parameters) are competitive with state-of-the art models with the added benefit of much faster inference

arxiv情報

著者 Michal Shlapentokh-Rothman,Yu-Xiong Wang,Derek Hoiem
発行日 2024-12-11 17:32:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク