Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

要約

最新の生成モデルは、トレーニング データの基礎となる抽象概念を識別して操作する能力から生じる、優れた機能を実証しています。
しかし、基本的な疑問は残ります。モデルが学習する概念、学習する順序、それらの概念を操作する能力は何が決定するのでしょうか?
これらの質問に対処するために、概念空間と呼ばれるフレームワークを介してモデルの学習ダイナミクスを分析することを提案します。概念空間では、各軸がデータ生成プロセスの基礎となる独立した概念を表します。
この空間における学習ダイナミクスを特徴付けることで、概念が学習される速度、したがって概念学習の順序が、概念信号と呼ばれるデータの特性によってどのように制御されるかを特定します。
さらに、概念空間におけるモデルの学習ダイナミクスの方向に突然変化する瞬間を観察します。
驚くべきことに、これらの点は隠れた能力の出現に正確に対応しています。つまり、潜在的な介入によってモデルが概念を操作する能力を持っていることが示されますが、これらの能力は単純な入力プロンプトではまだ引き出すことができません。
私たちの結果は合成的に定義されたおもちゃのデータセットに焦点を当てていますが、隠れた能力の出現に関する一般的な主張が成り立つ可能性があると仮説を立てています。生成モデルは、単純な入力プロンプトの下ではモデルがこれらの能力を示さない可能性があるにもかかわらず、トレーニング中に突然かつ一貫して出現する潜在的な能力を持っています。

要約(オリジナル)

Modern generative models demonstrate impressive capabilities, likely stemming from an ability to identify and manipulate abstract concepts underlying their training data. However, fundamental questions remain: what determines the concepts a model learns, the order in which it learns them, and its ability to manipulate those concepts? To address these questions, we propose analyzing a model’s learning dynamics via a framework we call the concept space, where each axis represents an independent concept underlying the data generating process. By characterizing learning dynamics in this space, we identify how the speed at which a concept is learned, and hence the order of concept learning, is controlled by properties of the data we term concept signal. Further, we observe moments of sudden turns in the direction of a model’s learning dynamics in concept space. Surprisingly, these points precisely correspond to the emergence of hidden capabilities, i.e., where latent interventions show the model possesses the capability to manipulate a concept, but these capabilities cannot yet be elicited via naive input prompting. While our results focus on synthetically defined toy datasets, we hypothesize a general claim on emergence of hidden capabilities may hold: generative models possess latent capabilities that emerge suddenly and consistently during training, though a model might not exhibit these capabilities under naive input prompting.

arxiv情報

著者 Core Francisco Park,Maya Okawa,Andrew Lee,Ekdeep Singh Lubana,Hidenori Tanaka
発行日 2024-06-27 17:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク