Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective

要約

大規模言語モデル (LLM) は本質的に、広範なコーパスでの事前トレーニングを通じて、パラメーター内に豊富な知識をエンコードします。
これまでの研究では、基礎となる暗黙の知識 (検出、編集、結合を含む) を操作するためのこれらのパラメーターの操作について詳しく調べられてきましたが、さまざまなスケールのモデル間でのそれらの移行可能性についてはあいまいな理解が残っています。
この論文では、パラメトリックな観点を通じて、より大きなモデルからより小さなモデルへの知識の伝達を実証的に調査することを目指しています。
これを達成するために、私たちは感度ベースの技術を採用して、異なる LLM 間で知識固有のパラメーターを抽出して調整します。
さらに、LoRA モジュールは、抽出された知識をより小さなモデルに注入するための仲介メカニズムとして使用されます。
4 つのベンチマークにわたる評価により、提案された手法の有効性が検証されます。
私たちの調査結果は、パラメトリックな知識伝達のプロセスに寄与する重要な要因を浮き彫りにし、異なるスケールの LLM 間でのモデル パラメータの伝達可能性を強調しています。
コードとデータは \url{https://github.com/maszhongming/ParaKnowTransfer} でリリースされます。

要約(オリジナル)

Large Language Models (LLMs) inherently encode a wealth of knowledge within their parameters through pre-training on extensive corpora. While prior research has delved into operations on these parameters to manipulate the underlying implicit knowledge (encompassing detection, editing, and merging), there remains an ambiguous understanding regarding their transferability across models with varying scales. In this paper, we seek to empirically investigate knowledge transfer from larger to smaller models through a parametric perspective. To achieve this, we employ sensitivity-based techniques to extract and align knowledge-specific parameters between different LLMs. Moreover, the LoRA module is used as the intermediary mechanism for injecting the extracted knowledge into smaller models. Evaluations across four benchmarks validate the efficacy of our proposed method. Our findings highlight the critical factors contributing to the process of parametric knowledge transfer, underscoring the transferability of model parameters across LLMs of different scales. We release code and data at \url{https://github.com/maszhongming/ParaKnowTransfer}.

arxiv情報

著者 Ming Zhong,Chenxin An,Weizhu Chen,Jiawei Han,Pengcheng He
発行日 2023-10-17 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク