Time is Encoded in the Weights of Finetuned Language Models

要約

言語モデルを新しい期間にカスタマイズするための簡単なツールである時間ベクトルを紹介します。
時間ベクトルは、単一の時間 (年または月など) からのデータに基づいて言語モデルを微調整し、元の事前トレーニング済みモデルの重みを減算することによって作成されます。
このベクトルは、実験で示されているように、その期間のテキストのパフォーマンスを向上させるウェイト空間の方向を指定します。
隣接する期間に特化した時間ベクトルは、多様体内で互いに近くに配置されているように見えます。
この構造を使用して、追加のトレーニングを行わずに、時間ベクトル間を補間して、中間期間および将来の期間でより優れたパフォーマンスを発揮する新しいモデルを誘導します。
さまざまなタスク、ドメイン、モデルのサイズ、時間スケールにわたる調査結果の一貫性を実証します。
私たちの結果は、時間が微調整されたモデルの重み空間にエンコードされていることを示唆しています。

要約(オリジナル)

We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models.

arxiv情報

著者 Kai Nylund,Suchin Gururangan,Noah A. Smith
発行日 2023-12-30 22:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク