Learning from Mistakes via Cooperative Study Assistant for Large Language Models

要約

大規模言語モデル (LLM) は、独自のフィードバックに基づいて生成を改良する可能性を実証しています。
ただし、LLM 自体からのフィードバックは不正確であることが多いため、その利点が制限されます。
この論文では、インタラクティブな協力を通じてメイン LLM が間違いから学習するのを支援する補助エージェントを備えた新しいフレームワークである Study Assistant for Large LANguage Model (SALAM) を提案します。
収集フェーズでは、学生アシスタント エージェントがメイン LLM を調査し、そのエラーを分析し、間違いメモリ内のインタラクションを収集します。
試験段階では、研究アシスタントは、主要な LLM が同様のエラーを予測して回避できるように、関連するケースを検索することでガイドラインを提供します。
まず一般的な学習アシスタントの有効性を調査し、成功した指導経験からの模倣学習を通じて LLM 固有の指導を提供するようにカスタマイズします。
2 つの困難なフレームワークを使用した 3 つの LLM に関する実験では、SALAM が LLM の精度マージンを BBH で最大 6.6、BBQ で 12.6 まで大幅に向上できることが実証されました。

要約(オリジナル)

Large language models (LLMs) have demonstrated their potential to refine their generation based on their own feedback. However, the feedback from LLM itself is often inaccurate, thereby limiting its benefits. In this paper, we propose Study Assistant for Large LAnguage Model (SALAM), a novel framework with an auxiliary agent to assist the main LLM in learning from mistakes through interactive cooperation. In the gathering phase, the student assistant agent probes the main LLM, analyzes its errors, and collects the interaction in a mistake memory. During the examination phase, the study assistant provides guidelines by retrieving relevant cases to help the main LLM anticipate and avoid similar errors. We first investigate the effectiveness of a general study assistant and then customize it to provide LLM-specific guidance through imitation learning from successful guidance experiences. Our experiments on three LLMs using two challenging frameworks demonstrate that SALAM can significantly boost LLMs by an accuracy margin of up to 6.6 on BBH and 12.6 on BBQ.

arxiv情報

著者 Danqing Wang,Lei Li
発行日 2023-10-24 16:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク