A Study on Leveraging Search and Self-Feedback for Agent Reasoning

要約

最近の作品は、推論中に検索を組み込むことで、言語エージェントの推論能力を大幅に改善できることを実証しています。
いくつかのアプローチは、グラウンドトゥルースを利用したり、モデル自身の生成されたフィードバックに依存したりする場合があります。
検索アルゴリズムは、このフィードバックを使用して、さまざまな推論パスを調査および悪用するための基準を更新する値を作成します。
この研究では、検索とモデルのセルフフィードバックを推論タスクに活用する方法を調査します。
まず、数学の推論の検索中に、地上の真実のフィードバックとセルフフィードバックの違いを探ります。
第二に、これらのギャップに対処するためのツールコールや設計ドメイン固有のアプローチなど、より複雑なタスクに検索技術を適用することの制限を観察します。
私たちの実験は、検索中にセルフフィードバックに依存する場合の一般化に関連する課題を明らかにしています。
検索が効果的に機能するには、接地の真実へのアクセスが必要か、特定のタスクのために慎重に設計する必要があります。

要約(オリジナル)

Recent works have demonstrated that incorporating search during inference can significantly improve reasoning capabilities of language agents. Some approaches may make use of the ground truth or rely on model’s own generated feedback. The search algorithm uses this feedback to then produce values that will update its criterion for exploring and exploiting various reasoning paths. In this study, we investigate how search and model’s self-feedback can be leveraged for reasoning tasks. First, we explore differences in ground-truth feedback and self-feedback during search for math reasoning. Second, we observe limitations in applying search techniques to more complex tasks like tool-calling and design domain-specific approaches to address these gaps. Our experiments reveal challenges related to generalization when solely relying on self-feedback during search. For search to work effectively, either access to the ground-truth is needed or feedback mechanisms need to be carefully designed for the specific task.

arxiv情報

著者 Karthikeyan K,Michelle Yuan,Elman Mansimov,Katerina Margatina,Anurag Pratik,Daniele Bonadiman,Monica Sunkara,Yi Zhang,Yassine Benajiba
発行日 2025-02-17 18:12:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク