When Life gives you LLMs, make LLM-ADE: Large Language Models with Adaptive Data Engineering

要約

この論文では、壊滅的な忘却と二重降下の課題に対処する大規模言語モデル (LLM) の継続的な事前トレーニングのための新しい方法論である LLM-ADE フレームワークを紹介します。
LLM-ADE は、特定のデータセットに合わせた、選択的なブロックの凍結や拡張などの動的なアーキテクチャ調整を採用しています。
この戦略により、以前に取得した知識を維持しながら、新しいデータに対するモデルの適応性が強化されます。
さまざまな一般知識ベンチマークにわたる TinyLlama モデルに対する LLM-ADE の有効性を実証し、従来の継続的トレーニング方法の欠点なしに大幅なパフォーマンスの向上を示しました。
このアプローチは、実際のアプリケーションで LLM を最新かつ効率的に維持するための、より多用途かつ堅牢な方法を約束します。

要約(オリジナル)

This paper presents the LLM-ADE framework, a novel methodology for continued pre-training of large language models (LLMs) that addresses the challenges of catastrophic forgetting and double descent. LLM-ADE employs dynamic architectural adjustments, including selective block freezing and expansion, tailored to specific datasets. This strategy enhances model adaptability to new data while preserving previously acquired knowledge. We demonstrate LLM-ADE’s effectiveness on the TinyLlama model across various general knowledge benchmarks, showing significant performance improvements without the drawbacks of traditional continuous training methods. This approach promises a more versatile and robust way to keep LLMs current and efficient in real-world applications.

arxiv情報

著者 Stephen Choi,William Gazeley
発行日 2024-04-19 17:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE パーマリンク