要約
ロングコンテキスト LLM は、検索拡張生成などのアプリケーションで需要が高まっています。
長いコンテキストで LLM を事前トレーニングするコストを負担するために、最近の研究では合成コンテキスト拡張のアプローチが採用されています。つまり、トレーニング後の段階で合成的に生成された長いコンテキスト データを使用して LLM を微調整します。
ただし、この合成コンテキスト拡張が下流の長いコンテキストのタスクに機能を与える方法と理由は不明のままです。
この論文では、検索と推論を必要とする 3 つの長いコンテキストのタスクについて、合成データの微調整を調査します。
LLM を使用して合成ドキュメントを構築することから、テンプレート化された関係を使用してシンボリック データセットを作成することまで、取得する「針」概念の現実性と周囲の「干し草の山」コンテキストの多様性を変化させます。
合成データでトレーニングされたモデルは実際のデータには及ばないことがわかりましたが、驚くべきことに、この不一致は、長いコンテキストにわたる検索を担当する特別なアテンション ヘッドのセット、つまり検索ヘッドの観点から解釈でき、予測することもできます (Wu et al
., 2024)。
合成データで学習された検索ヘッドは、ほとんどが実際のデータで学習された検索ヘッドのサブセットであり、学習されたヘッドの再現率とモデルの下流のパフォーマンスの間には強い相関関係があります。
さらに、アテンションノックアウトとアクティベーションパッチを使用して、完全に十分ではないものの、検索ヘッドが必要であることを機構的に示し、モデルのパフォーマンスを説明します。
私たちの結果は、合成データの微調整パフォーマンスを解釈する方法と、長いコンテキストにわたって現実世界の機能を学習するためのより良いデータを作成するアプローチの方法を明らかにします。
要約(オリジナル)
Long-context LLMs are increasingly in demand for applications such as retrieval-augmented generation. To defray the cost of pretraining LLMs over long contexts, recent work takes an approach of synthetic context extension: fine-tuning LLMs with synthetically generated long-context data in a post-training stage. However, it remains unclear how and why this synthetic context extension imparts abilities for downstream long-context tasks. In this paper, we investigate fine-tuning on synthetic data for three long-context tasks that require retrieval and reasoning. We vary the realism of ‘needle’ concepts to be retrieved and diversity of the surrounding ‘haystack’ context, from using LLMs to construct synthetic documents to using templated relations and creating symbolic datasets. We find that models trained on synthetic data fall short of the real data, but surprisingly, the mismatch can be interpreted and even predicted in terms of a special set of attention heads that are responsible for retrieval over long context: retrieval heads (Wu et al., 2024). The retrieval heads learned on synthetic data are mostly subsets of the retrieval heads learned on real data, and there is a strong correlation between the recall of heads learned and the downstream performance of a model. Furthermore, with attention knockout and activation patching, we mechanistically show that retrieval heads are necessary and explain model performance, although they are not totally sufficient. Our results shed light on how to interpret synthetic data fine-tuning performance and how to approach creating better data for learning real-world capabilities over long contexts.
arxiv情報
著者 | Xinyu Zhao,Fangcong Yin,Greg Durrett |
発行日 | 2024-10-29 17:55:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google