Can Transformers Learn Sequential Function Classes In Context?

要約

インコンテキスト学習 (ICL) は、NLP のトランスフォーマー モデルの機能に革命をもたらしました。
私たちのプロジェクトでは、トランスフォーマーが逐次的な非テキスト関数クラスのデータ配布から学習できるかどうかを調査することで、ICL を支えるメカニズムの理解を深めます。
新しいスライディング ウィンドウ シーケンシャル関数クラスを導入し、GPT-2 アーキテクチャを備えたおもちゃサイズの変圧器を使用して実験を実施します。
私たちの分析は、これらのモデルが非テキストの逐次関数クラスでトレーニングされた場合に実際に ICL を活用できることを示しています。
さらに、ランダム化された y ラベル シーケンスを使用した実験では、ラベルの関連付けが難読化されている場合でも、トランスフォーマーが一部の ICL 機能を保持していることがわかりました。
私たちは、提案されたタスクの効果的な学習に反映されるように、トランスフォーマーが関数クラス内でエンコードされた順序性を推論して理解できるという証拠を提供します。
また、我々の結果は、予想されるほどではないものの、ラベルのランダム性が増加するとパフォーマンスが低下することを示しており、ラベル ノイズに対する学習された順序性の潜在的なロバスト性を示唆しています。
将来の研究では、誘導ヘッドやタスク ベクトルなどの変圧器に関するこれまでの説明が、これらのおもちゃの例における ICL の連続性にどのように関連しているかを調査する必要があるかもしれません。
私たちの調査は、トランスフォーマーが連続データをどのように処理し、認識するかについてのさらなる研究の基礎を築きます。

要約(オリジナル)

In-context learning (ICL) has revolutionized the capabilities of transformer models in NLP. In our project, we extend the understanding of the mechanisms underpinning ICL by exploring whether transformers can learn from sequential, non-textual function class data distributions. We introduce a novel sliding window sequential function class and employ toy-sized transformers with a GPT-2 architecture to conduct our experiments. Our analysis indicates that these models can indeed leverage ICL when trained on non-textual sequential function classes. Additionally, our experiments with randomized y-label sequences highlights that transformers retain some ICL capabilities even when the label associations are obfuscated. We provide evidence that transformers can reason with and understand sequentiality encoded within function classes, as reflected by the effective learning of our proposed tasks. Our results also show that the performance deteriorated with increasing randomness in the labels, though not to the extent one might expect, implying a potential robustness of learned sequentiality against label noise. Future research may want to look into how previous explanations of transformers, such as induction heads and task vectors, relate to sequentiality in ICL in these toy examples. Our investigation lays the groundwork for further research into how transformers process and perceive sequential data.

arxiv情報

著者 Ryan Campbell,Emma Guo,Evan Hu,Reya Vir,Ethan Hsiao
発行日 2023-12-21 04:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク