Dynamic Skill Adaptation for Large Language Models

要約

我々は、斬新で複雑なスキルを大規模言語モデル (LLM) に適応させるための適応的で動的なフレームワークである動的スキル アダプテーション (DSA) を紹介します。
人間が厳選した静的データからランダムな順序で学習する以前の研究と比較して、最初に人間の学習経路を模倣することによってトレーニングデータを自動的に生成および整理し、次にトレーニングダイナミクスに基づいてトレーニングデータを動的に調整することを提案します。
具体的には、人間の教育システムにおける学習構造と指導戦略に触発されて、まず複雑なスキルをサブスキルに分解し、人間の音節の依存関係に基づいて配置することでスキル グラフを構築します。
すべてのスキルについて、LLM を利用して、事前トレーニング用のスキルの詳細な説明を含む教科書のようなデータと、指導調整の問題を解決するためにスキルを明示的に利用することを目的とした演習のようなデータの両方を生成します。
さらに、命令のチューニング中に、学習しやすいサンプルの重みを下げ、より複雑なサンプルを生成し、エラーのあるデータを除外するトレーニング データを動的に更新します。
LLAMA や Mistral などの大規模な言語モデルでの実験では、数学的推論スキルと社会学習スキルを適応させる上で、私たちが提案した方法の有効性を実証しています。

要約(オリジナル)

We present Dynamic Skill Adaptation (DSA), an adaptive and dynamic framework to adapt novel and complex skills to Large Language Models (LLMs). Compared with previous work which learns from human-curated and static data in random orders, we propose to first automatically generate and organize the training data by mimicking the learning pathways of human and then dynamically tailor the training data based on the training dynamics. Specifically, inspired by the learning structures and teaching strategies in the human education system, we first construct a skill graph by decomposing complex skills into sub-skills and arranging them based on their dependencies in human syllables. For every skill, we utilize LLMs to generate both textbook-like data which contains detailed descriptions of skills for pre-training and exercise-like data which targets at explicitly utilizing the skills to solve problems for instruction-tuning. Furthermore, during the instruction-tuning, we dynamically update the training data which down-weight easy-to-learn examples, generate more complex examples, and filter out data with errors. Experiments on large language models such as LLAMA and Mistral demonstrate the effectiveness of our proposed methods in adapting math reasoning skills and social study skills.

arxiv情報

著者 Jiaao Chen,Diyi Yang
発行日 2024-12-26 22:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク