Implicit meta-learning may lead language models to trust more reliable sources

要約

私たちは、LLM が文書の有用性の指標を学習し、それに応じて更新を調整できることを実証します。
合成微調整データセットの有用性の指標としてランダムな文字列 (「タグ」) を導入します。
このデータセットを微調整すると、暗黙的メタ学習 (IML) が行われます。さらに微調整すると、有用とタグ付けされたテキストをさらに活用するようにモデルが更新されます。
私たちはこの現象について徹底的な実証的調査を行い、(特に) (i) 事前トレーニング済み LLM と最初からトレーニングした LLM の両方、およびビジョン タスクで発生すること、(ii) より大きなモデルとより小さなバッチ サイズで発生することを発見しました。
より多くのIMLを与える傾向があります。
また、プローブを使用して、IML がモデルのパラメーターに知識を保存する方法をどのように変更するかを調べます。
最後に、将来の AI システムの機能、リスク、制御可能性について、結果が示唆する可能性があることを考察します。
私たちのコードは https://github.com/krasheninnikov/internalization にあります。

要約(オリジナル)

We demonstrate that LLMs may learn indicators of document usefulness and modulate their updates accordingly. We introduce random strings (‘tags’) as indicators of usefulness in a synthetic fine-tuning dataset. Fine-tuning on this dataset leads to implicit meta-learning (IML): in further fine-tuning, the model updates to make more use of text that is tagged as useful. We perform a thorough empirical investigation of this phenomenon, finding (among other things) that (i) it occurs in both pretrained LLMs and those trained from scratch, as well as on a vision task, and (ii) larger models and smaller batch sizes tend to give more IML. We also use probing to examine how IML changes the way models store knowledge in their parameters. Finally, we reflect on what our results might imply about capabilities, risks, and controllability of future AI systems. Our code can be found at https://github.com/krasheninnikov/internalization.

arxiv情報

著者 Dmitrii Krasheninnikov,Egor Krasheninnikov,Bruno Mlodozeniec,Tegan Maharaj,David Krueger
発行日 2024-05-15 10:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク