Large Language Model Can Continue Evolving From Mistakes

要約

大規模言語モデル (LLM) は、さまざまな下流タスクで優れたパフォーマンスを発揮します。
ただし、知識の不足や事前トレーニング データの欠陥により、特定のシナリオでは依然として不正確な応答が生成される可能性があります。
継続学習 (CL) は、この問題に対処するために一般的に使用される方法です。
従来の CL はタスク指向であり、新しいデータまたは事実が正確なデータを使用して LLM を最初から再トレーニングします。
ただし、この方法ではより多くのタスク関連のトレーニング データが必要となり、高価なトレーニング コストがかかります。
この課題に対処するために、LLM の反復改良を達成するために、「間違いを要約する」学習スキルにヒントを得た、間違いから進化し続ける (CEM) メソッドを提案します。
具体的には、LLM の不正確な応答は、質問に関連する知識不足を示しています。
したがって、これらの知識を含むコーパスを複数のデータソースから収集し、継続的で的を絞った知識の更新と補足のために反復的な補足トレーニングでフォローアップします。
一方、私たちは、コーパスに対する LLM の理解を強化し、壊滅的な忘却を防ぐために、補足的なトレーニング セットを構築する 2 つの戦略を開発しました。
この CL 法の有効性を検証するために、広範な実験を実施しました。
最良の場合、私たちの方法により LLM の精度が 17.00% 向上しました。

要約(オリジナル)

Large Language Models (LLMs) demonstrate impressive performance in various downstream tasks. However, they may still generate incorrect responses in certain scenarios due to the knowledge deficiencies and the flawed pre-training data. Continual Learning (CL) is a commonly used method to address this issue. Traditional CL is task-oriented, using novel or factually accurate data to retrain LLMs from scratch. However, this method requires more task-related training data and incurs expensive training costs. To address this challenge, we propose the Continue Evolving from Mistakes (CEM) method, inspired by the ‘summarize mistakes’ learning skill, to achieve iterative refinement of LLMs. Specifically, the incorrect responses of LLMs indicate knowledge deficiencies related to the questions. Therefore, we collect corpora with these knowledge from multiple data sources and follow it up with iterative supplementary training for continuous, targeted knowledge updating and supplementation. Meanwhile, we developed two strategies to construct supplementary training sets to enhance the LLM’s understanding of the corpus and prevent catastrophic forgetting. We conducted extensive experiments to validate the effectiveness of this CL method. In the best case, our method resulted in a 17.00\% improvement in the accuracy of the LLM.

arxiv情報

著者 Haokun Zhao,Haixia Han,Jie Shi,Chengyu Du,Jiaqing Liang,Yanghua Xiao
発行日 2024-04-19 07:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク