TroVE: Inducing Verifiable and Efficient Toolboxes for Solving Programmatic Tasks

要約

言語モデル (LM) は、プログラムを作成することで、表や画像に関する質問に答えるなどのタスクを解決できます。
ただし、基本関数を使用すると、冗長でエラーが発生しやすいプログラムが作成されることが多く、より高レベルの関数を使用するには専門的な設計が必要です。
人間の労力なしでより良いソリューションを実現するために、コード LM に再利用可能な高レベル関数を厳選し、それらを使用してソリューションを作成するように依頼します。
ツールボックスを使用、拡張、定期的にトリミングすることによって生成し、検証可能で効率的な関数のツールボックスを誘導するトレーニング不要の手法である TROVE を紹介します。
数学、表形式の質問への回答、および画像推論タスクからの 11 のデータセットに対して、TROVE は、79 ~ 98% 小さいツールボックスを使用しながら、CODELLAMA を使用したベースラインや GPT を使用した以前の方法よりも高い精度で、よりシンプルなソリューションを一貫して生成します。
TROVE はさらに、ベースラインよりも 31% 高速で 13% より正確な人間による検証を可能にします。
同じパイプラインを使用して、さまざまなタスクやデータセットに対応するさまざまな関数を作成し、それぞれの特性についての洞察を提供します。

要約(オリジナル)

Language models (LMs) can solve tasks such as answering questions about tables or images by writing programs. However, using primitive functions often leads to verbose and error-prone programs, and higher-level functions require expert design. To enable better solutions without human labor, we ask code LMs to curate reusable high-level functions, and use them to write solutions. We present TROVE, a training-free method of inducing a verifiable and efficient toolbox of functions, by generating via using, growing, and periodically trimming the toolbox. On 11 datasets from math, table question answering, and image reasoning tasks, TROVE consistently yields simpler solutions with higher accuracy than baselines using CODELLAMA and previous methods using GPT, while using 79-98% smaller toolboxes. TROVE further enables 31% faster and 13% more accurate human verification than baselines. With the same pipeline, it creates diverse functions for varied tasks and datasets, providing insights into their individual characteristics.

arxiv情報

著者 Zhiruo Wang,Daniel Fried,Graham Neubig
発行日 2024-01-23 16:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク