Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks

要約

大規模言語モデル (LLM) の最近の進歩により、自然言語の理解と生成において優れた機能が実証されました。
これらのモデルは、一般的な複雑な推論タスクでは優れていますが、数学的な問題解決と論理的推論では依然として課題に直面しています。
これらの制限に対処するために、研究者は、LLM が提供された関数を実行し、その出力をタスクの完了に利用できるようにする関数呼び出し機能を調査しました。
ただし、特定のタスクに集中することは、計算リソースの観点から必要なトレーニングと推論ステージに高価なコストがかかるため、大規模な LLM を使用する場合は非常に非効率的になる可能性があります。
この研究では、特定の論理的および数学的推論タスクに焦点を当て、関数呼び出しで小規模な言語モデルをトレーニングするための新しいフレームワークを紹介します。
このアプローチは、関数呼び出しを使用してこれらのタスクの小規模モデルのパフォーマンスを向上させ、高レベルの精度を保証することを目的としています。
私たちのフレームワークは、問題と一連の呼び出し可能な関数を指定して、使用可能な関数の説明と例をプロンプトに挿入し、ステップバイステップの推論チェーンで呼び出しを管理することによって LLM にクエリを実行するエージェントを採用しています。
このプロセスは、大規模な LLM からの正しい推論チェーン チャット完了と誤った推論チェーン チャット完了のデータセットを作成するために使用されます。
このデータセットは、ヒューマン フィードバックからの強化学習 (RLHF)、特に直接優先最適化 (DPO) 手法を使用して小規模な LLM をトレーニングするために使用されます。
実験結果は、提案されたアプローチがどのようにモデルのサイズとパフォーマンスの間のトレードオフのバランスをとり、より小さなモデルで推論タスクの関数呼び出しの能力を向上させるかを示しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have demonstrated exceptional capabilities in natural language understanding and generation. While these models excel in general complex reasoning tasks, they still face challenges in mathematical problem-solving and logical reasoning. To address these limitations, researchers have explored function calling abilities, allowing LLMs to execute provided functions and utilize their outputs for task completion. However, concentrating on specific tasks can be very inefficient for large-scale LLMs to be used, because of the expensive cost of training and inference stages they need in terms of computational resources. This study introduces a novel framework for training smaller language models in function calling, focusing on specific logical and mathematical reasoning tasks. The approach aims to improve performances of small-scale models for these tasks using function calling, ensuring a high level of accuracy. Our framework employs an agent that, given a problem and a set of callable functions, queries the LLM by injecting a description and examples of the usable functions into the prompt and managing their calls in a step-by-step reasoning chain. This process is used to create a dataset of correct and incorrect reasoning chain chat completions from a large-scale LLM. This dataset is used to train a smaller LLM using Reinforcement Learning from Human Feedback (RLHF), specifically employing the Direct Preference Optimization (DPO) technique. Experimental results demonstrate how the proposed approach balances the trade-off between model size and performance, improving the ability of function calling for reasoning tasks, in smaller models.

arxiv情報

著者 Graziano A. Manduzio,Federico A. Galatolo,Mario G. C. A. Cimino,Enzo Pasquale Scilingo,Lorenzo Cominelli
発行日 2024-10-24 16:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク