Automating Thought of Search: A Journey Towards Soundness and Completeness

要約

大規模な言語モデル(LLM)が使用されており、検索が必要な計画問題を解決しています。
ほとんどの文献では、LLMSを世界モデルとして使用して検索スペースを定義し、柔軟性のために健全性を控えています。
最近の研究、検索の考え(TOS)は、コードを使用して検索スペースを定義することを提案し、LLMSにそのコードを生成することを提案しました。
TOSはループ内の人間を必要とし、サウンド後継の機能と目標テストを共同で生成します。
ただし、結果は努力する価値があります。テストされたすべてのデータセットは、100%の精度で解決されました。
その結果、TOSプロセスを自動化する大きな可能性があります。
TOS(AutoTOS)の自動化に向けて最初の大きなステップを踏み、言語モデルとの相互作用のループから人間を取り出します。
AutoTOSは、一般的な単位テストとドメイン固有の単位テストの両方からのフィードバックを通じて、サウンドと完全な検索コンポーネントの生成に向けて、言語モデルを段階的に導きます。
AutoTOSは、少数のLLMコールを使用して、評価されたすべてのドメインで100%の精度を達成できることを示しています。

要約(オリジナル)

Large language models (LLMs) are being used to solve planning problems that require search. Most of the literature uses LLMs as world models to define the search space, forgoing soundness for the sake of flexibility. A recent work, Thought of Search (ToS), proposed defining the search space with code, having LLMs produce that code. ToS requires a human in the loop, collaboratively producing a sound successor function and goal test. The result, however, is worth the effort: all the tested datasets were solved with 100% accuracy. Consequently, there is great potential to automate the ToS process. We take a first major step towards automating ToS (AutoToS), taking the human out of the loop of interactions with the language model. AutoToS guides the language model step by step towards the generation of sound and complete search components, through feedback from both generic and domain specific unit tests. We show that AutoToS is able to achieve 100% accuracy on all the evaluated domains with a small number of LLM calls.

arxiv情報

著者 Daniel Cao,Michael Katz,Harsha Kokel,Kavitha Srinivas,Shirin Sohrabi
発行日 2025-05-28 17:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク