Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees

要約

多くの場合、APIの形でツールを活用してツールを活用して、複雑なタスクでの推論機能を改善します。
これにより、それらは現実の世界と対話するインテリジェントエージェントとして行動することができます。
Qinらによって最近導入されたOlllamaモデル。
[2023]は、$ 16000+$ $ REALLD APIを使用して、マルチステップ推論の深さ第一検索ベースの決定ツリー(DFSDT)メカニズムを利用し、従来のチェーン推論メカニズムと比較してツールを得たLLMのパフォーマンスを効果的に向上させます。
ただし、彼らのアプローチは、監視された微調整(SFT)の決定ツリー(推論ツリーとも呼ばれる)からの成功したパスのみを採用しており、失敗したパスからの潜在的な学習機会を逃しています。
これに触発されて、私たちは、この制限に対処するための選好学習に基づいて、推論軌道最適化フレームワークを提案します。
最初に、以前に無視された失敗した探索を決定ツリーで活用する木のような専門家の軌跡から段階的な優先データを構築するための新しい方法を紹介します。
その後のトレーニング段階では、まずLLMを成功したツール使用の専門家軌跡で微調整し、次にLLMのポリシーを更新するための優先データを直接優先最適化(DPO)を適用して、Toolprefer-lama(TP-LAMA)モデルになります。
このアプローチは、元の専門家データの利用を強化するだけでなく、モデルの学習空間を広げます。
私たちの実験は、推論ツリーのエラーから洞察を取得することにより、TP-llamaがほとんどすべてのテストシナリオでベースラインを大幅に上回り、目に見えないAPIを使用してより良い一般化機能を示すことを示しています。
同時に、TP-llamaはベースラインと比較して優れた推論効率も実証しており、複雑なツール使用推論タスクにより適しています。

要約(オリジナル)

Tool-augmented large language models (LLMs) leverage tools, often in the form of APIs, to improve their reasoning capabilities on complex tasks. This enables them to act as intelligent agents interacting with the real world. The recently introduced ToolLLaMA model by Qin et al. [2023] utilizes the depth-first search-based decision tree (DFSDT) mechanism for multi-step reasoning with $16000+$ real-world APIs, effectively enhancing the performance of tool-augmented LLMs compared to traditional chain reasoning mechanisms. However, their approach only employs successful paths from decision trees (also called inference trees) for supervised fine-tuning (SFT), missing out on the potential learning opportunities from failed paths. Inspired by this, we propose an inference trajectory optimization framework based on preference learning to address this limitation. We first introduce a novel method for constructing step-wise preference data from tree-like expert trajectories, which leverages the previously ignored failed explorations in the decision trees. In the subsequent training phase, we first fine-tune the LLM with successful tool-usage expert trajectories and then apply direct preference optimization (DPO) with the preference data to update the LLM’s policy, resulting in our ToolPrefer-LLaMA (TP-LLaMA) model. This approach not only enhances the utilization of original expert data but also broadens the learning space of the model. Our experiments demonstrate that by obtaining insights from errors in inference trees, TP-LLaMA significantly outperforms the baselines across almost all test scenarios by a large margin and exhibits better generalization capabilities with unseen APIs. At the same time, TP-LLaMA has also demonstrated superior reasoning efficiency compared to the baselines, making it more suitable for complex tool-usage reasoning tasks.

arxiv情報

著者 Sijia Chen,Yibo Wang,Yi-Feng Wu,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,Lijun Zhang
発行日 2025-03-21 08:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク