Learning and Leveraging Verifiers to Improve Planning Capabilities of Pre-trained Language Models

要約

文献では、事前トレーニングされた大規模言語モデルの新たな推論機能について広く主張されています。
しかし、最近の研究では、彼らの計画能力には依然として疑問があることが判明しています。
GPT-2 を使用した実験を通じて、微調整されたベースラインは、生成される計画のアクションの前提条件に違反するため、パフォーマンスが低いままであることを経験的に示しています。
微調整された LLM の計画機能を向上させるために、特定の状態でアクションが有効か無効かを分類できるベリファイアーをトレーニングします。
同じデータセットからアクションをランダムにサンプリングすることで、無効なアクションの例を生成し、アクションの適用性をチェックできる検証ツールのトレーニングに使用します。
無効な軌道を取り除くことができるジェネレーターとベリファイアーからの多様なサンプリングが存在する場合、Blocksworld ドメインでの成功率が大幅に向上することがわかりました。
さらに、GPT-2 ジェネレーター自体を微調整して検証ツールを作成する方が、ベースの GPT-2 を微調整するよりも一般化できることを示します。
最後に、探査と開発のトレードオフを制御するために使用できるサンプリング温度の役割を調査します。

要約(オリジナル)

There have been wide spread claims in the literature about the emergent reasoning capabilities of Pretrained Large Language Models. However, recent studies, have found that their ability to plan remains questionable. Through our experiments using GPT-2, we empirically demonstrate that the performance of a finetuned baseline remains poor because it violates pre-conditions of actions in the plans that it generates. To improve the planning capabilities of a finetuned LLM, we train a verifier, which can classify actions as being valid or invalid in a particular state. By randomly sampling actions from the same dataset, we generate examples of invalid actions which are then used to train a verifier which can check for action applicability. In the presence of diverse sampling from a generator and a verifier which can prune invalid trajectories, we show significant gains in the success rate on the Blocksworld domain. Additionally, we show that finetuning the GPT-2 generator itself to create the verifier generalizes better than finetuning the base GPT-2. Lastly, we investigate the role of the sampling temperature which can be used to control the exploration-exploitation tradeoff.

arxiv情報

著者 Daman Arora,Subbarao Kambhampati
発行日 2023-05-26 16:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク