The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction

要約

トランスフォーマーベースの大規模言語モデル (LLM) は、現代の機械学習に定着しました。
これに応じて、このテクノロジーをさらに進歩させることを目的とした研究に多くのリソースが割り当てられ、通常は、増大する量のデータでトレーニングされるモデルのサイズが増大します。
しかし、この研究は、LLM の重み行列の高次成分を選択的に除去することによって、LLM のパフォーマンスを大幅に改善できることが多いという驚くべき結果を示しています。
この単純な介入は LAyer-SElective Rankduction (LASER) と呼ばれ、トレーニングが完了した後にモデルに対して実行でき、追加のパラメーターやデータは必要ありません。
私たちは、言語モデルとデータセットにわたるこの発見の一般性を実証する広範な実験を示し、レーザーが有効な時期とそれが動作するメカニズムの両方についての洞察を提供する詳細な分析を提供します。

要約(オリジナル)

Transformer-based Large Language Models (LLMs) have become a fixture in modern machine learning. Correspondingly, significant resources are allocated towards research that aims to further advance this technology, typically resulting in models of increasing size that are trained on increasing amounts of data. This work, however, demonstrates the surprising result that it is often possible to significantly improve the performance of LLMs by selectively removing higher-order components of their weight matrices. This simple intervention, which we call LAyer-SElective Rank reduction (LASER), can be done on a model after training has completed, and requires no additional parameters or data. We show extensive experiments demonstrating the generality of this finding across language models and datasets, and provide in-depth analyses offering insights into both when LASER is effective and the mechanism by which it operates.

arxiv情報

著者 Pratyusha Sharma,Jordan T. Ash,Dipendra Misra
発行日 2023-12-21 03:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク