Learning Spectral Methods by Transformers

要約

トランスフォーマーは、最新のLLMの構成要素として大きな利点を示している。本研究では、教師なし学習におけるTransformerの能力を研究する。我々は、十分に大きな事前学習インスタンス集合を与えられた多層トランスフォーマーが、アルゴリズム自体を学習し、新しいインスタンスを与えられた統計的推定タスクを実行できることを示す。この学習パラダイムは、文脈内学習セットアップとは異なり、スキルが過去の経験を通して学習される人間の脳の学習手順に似ている。理論的には、事前に訓練されたTransformerがスペクトル法を学習できることを証明し、例として2クラスガウス混合モデルの分類を用いる。我々の証明は、アルゴリズム設計技術を用いた構成的なものである。我々の結果は、多層トランスフォーマーアーキテクチャと、実際に使用されている反復回復アルゴリズムとの類似性に基づいて構築されている。経験的に、我々は、合成データセットと実世界データセットで実行されたPCAタスクとクラスタリングタスクの両方を通して、教師なし学習における多層(事前学習済み)Transformerの強力な能力を検証する。

要約(オリジナル)

Transformers demonstrate significant advantages as the building block of modern LLMs. In this work, we study the capacities of Transformers in performing unsupervised learning. We show that multi-layered Transformers, given a sufficiently large set of pre-training instances, are able to learn the algorithms themselves and perform statistical estimation tasks given new instances. This learning paradigm is distinct from the in-context learning setup and is similar to the learning procedure of human brains where skills are learned through past experience. Theoretically, we prove that pre-trained Transformers can learn the spectral methods and use the classification of bi-class Gaussian mixture model as an example. Our proof is constructive using algorithmic design techniques. Our results are built upon the similarities of multi-layered Transformer architecture with the iterative recovery algorithms used in practice. Empirically, we verify the strong capacity of the multi-layered (pre-trained) Transformer on unsupervised learning through the lens of both the PCA and the Clustering tasks performed on the synthetic and real-world datasets.

arxiv情報

著者 Yihan He,Yuan Cao,Hong-Yu Chen,Dennis Wu,Jianqing Fan,Han Liu
発行日 2025-01-02 15:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク