SELF: Self-Evolution with Language Feedback

要約

大規模言語モデル (LLM) は、さまざまなドメインにわたって驚くべき多用途性を実証しています。
LLM をさらに進化させるために、私たちは、LLM が人間の学習プロセスと同様に、内省を通じて自己改善できる新しいアプローチである「SELF」(言語フィードバックによる自己進化) を提案します。
SELF は、LLM に自己フィードバックと自己洗練の機能を提供するメタスキル学習プロセスから始まります。
その後、モデルは自己進化の反復プロセスを経ます。
各反復では、ラベルのない命令のデータセットを利用して初期応答を生成します。
これらの反応は、自己フィードバックと自己洗練を通じて強化されます。
次に、この強化されたデータを使用してモデルが微調整されます。
モデルは、この反復的な自己進化プロセスを通じて段階的に改善されます。
さらに、SELF フレームワークにより、モデルは推論中に自己調整を適用できるため、応答品質がさらに向上します。
数学と一般的なタスクにおける私たちの実験は、SELF が人間の介入なしで LLM の能力を強化できることを示しています。
SELF フレームワークは、LLM を受動的な情報受信者から開発への積極的な参加者へと移行させ、LLM の自律的な進化の有望な方向性を示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable versatility across various domains. To further advance LLMs, we propose ‘SELF’ (Self-Evolution with Language Feedback), a novel approach that enables LLMs to self-improve through self-reflection, akin to human learning processes. SELF initiates with a meta-skill learning process that equips the LLMs with capabilities for self-feedback and self-refinement. Subsequently, the model undergoes an iterative process of self-evolution. In each iteration, it utilizes an unlabeled dataset of instructions to generate initial responses. These responses are enhanced through self-feedback and self-refinement. The model is then fine-tuned using this enhanced data. The model undergoes progressive improvement through this iterative self-evolution process. Moreover, the SELF framework enables the model to apply self-refinement during inference, which further improves response quality. Our experiments in mathematics and general tasks demonstrate that SELF can enhance the capabilities of LLMs without human intervention. The SELF framework indicates a promising direction for the autonomous evolution of LLMs, transitioning them from passive information receivers to active participants in their development.

arxiv情報

著者 Jianqiao Lu,Wanjun Zhong,Wenyong Huang,Yufei Wang,Qi Zhu,Fei Mi,Baojun Wang,Weichao Wang,Xingshan Zeng,Lifeng Shang,Xin Jiang,Qun Liu
発行日 2024-02-01 06:10:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク