Language Models can Self-Improve at State-Value Estimation for Better Search

要約

グラウンドトゥルースタスクの完了報酬またはマルチステップ推論タスクの人間のデモンストレーションの収集は、特にWebタスクのようなインタラクティブなドメインで、コストがかかり、時間がかかることがよくあります。
このボトルネックに対処するために、状態移動ダイナミクスを活用して言語モデル制御の検索を効果的にガイドできるバリューモデルをトレーニングする自己監視方法である独学のLookaheadを提示します。
独学で改善された中程度のサイズの(80億パラメーター)オープンウェイト値モデルは、GPT-4OなどのフロンティアLLMを値モデルとして使用することのパフォーマンスと一致することがわかります。
さらに、自己評価のlookaheadは、グラウンドトゥルースの報酬に依存することなく、以前のLLMベースのツリー検索と比較して37倍のコストを削減しながら、パフォーマンスを20%向上させることがわかります。

要約(オリジナル)

Collecting ground truth task completion rewards or human demonstrations for multi-step reasoning tasks is often cost-prohibitive and time-consuming, especially in interactive domains like web tasks. To address this bottleneck, we present self-taught lookahead, a self-supervised method that leverages state-transition dynamics to train a value model capable of effectively guiding language model-controlled search. We find that moderately sized (8 billion parameters) open-weight value models improved with self-taught lookahead can match the performance of using a frontier LLM such as gpt-4o as the value model. Furthermore, we find that self-taught lookahead improves performance by 20% while reducing costs 37x compared to previous LLM-based tree search, without relying on ground truth rewards.

arxiv情報

著者 Ethan Mendes,Alan Ritter
発行日 2025-03-04 18:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク