ICLR: In-Context Learning of Representations

要約

最近の研究では、事前学習データによって指定された意味論が、大規模言語モデル(LLM)において異なる概念の表現がどのように構成されるかに影響を与えることが実証されている。しかし、LLMのオープンエンドな性質、例えば文脈内学習能力を考慮すると、モデルがこれらの事前学習セマンティクスを変更して、文脈で指定された別のセマンティクスを採用するかどうかを問うことができる。具体的には、ある概念が事前学習データが示唆するのとは異なる役割を果たすような文脈内模範を提供した場合、モデルはこれらの新しい意味論に従って表現を再編成するのだろうか?この問いに答えるために、我々は概念役割セマンティクスの理論からヒントを得て、グラフのノードがトレーニング中に見た概念(例えば、リンゴ、鳥など)を介して参照され、グラフの接続性が何らかの事前定義された構造(例えば、正方形のグリッド)を介して定義される、おもちゃの「グラフトレース」タスクを定義する。グラフ上のランダムウォークの痕跡を示す模範が与えられたとき、我々はモデルの中間表現を分析し、文脈の量がスケールされるにつれて、事前に訓練された意味表現からグラフ構造に沿った文脈内表現への急激な再組織化があることを発見する。さらに、参照概念がその意味論において相関を持つ場合(例えば、月曜日、火曜日など)、文脈で特定されたグラフ構造はまだ表現に存在するが、事前に訓練された構造を支配することはできない。これらの結果を説明するために、我々は我々のタスクを事前に定義されたグラフのトポロジーに対するエネルギー最小化になぞらえ、文脈で特定されたセマンティクスを推論する暗黙の最適化プロセスに対する証拠を提供する。全体として、我々の発見は、コンテキストサイズのスケーリングが、モデル表現を柔軟に再編成し、おそらく新しい能力を解き放つことができることを示している。

要約(オリジナル)

Recent work has demonstrated that semantics specified by pretraining data influence how representations of different concepts are organized in a large language model (LLM). However, given the open-ended nature of LLMs, e.g., their ability to in-context learn, we can ask whether models alter these pretraining semantics to adopt alternative, context-specified ones. Specifically, if we provide in-context exemplars wherein a concept plays a different role than what the pretraining data suggests, do models reorganize their representations in accordance with these novel semantics? To answer this question, we take inspiration from the theory of conceptual role semantics and define a toy ‘graph tracing’ task wherein the nodes of the graph are referenced via concepts seen during training (e.g., apple, bird, etc.) and the connectivity of the graph is defined via some predefined structure (e.g., a square grid). Given exemplars that indicate traces of random walks on the graph, we analyze intermediate representations of the model and find that as the amount of context is scaled, there is a sudden re-organization from pretrained semantic representations to in-context representations aligned with the graph structure. Further, we find that when reference concepts have correlations in their semantics (e.g., Monday, Tuesday, etc.), the context-specified graph structure is still present in the representations, but is unable to dominate the pretrained structure. To explain these results, we analogize our task to energy minimization for a predefined graph topology, providing evidence towards an implicit optimization process to infer context-specified semantics. Overall, our findings indicate scaling context-size can flexibly re-organize model representations, possibly unlocking novel capabilities.

arxiv情報

著者 Core Francisco Park,Andrew Lee,Ekdeep Singh Lubana,Yongyi Yang,Maya Okawa,Kento Nishi,Martin Wattenberg,Hidenori Tanaka
発行日 2025-05-02 05:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク