Transformer Learns Optimal Variable Selection in Group-Sparse Classification

要約

変圧器は、さまざまなアプリケーションで顕著な成功を示しています。
しかし、変圧器の成功は理論的には理解されていません。
この作業では、入力変数が複数のグループを形成する「グループスパース」で古典的な統計モデルを学習するためにトランスを訓練する方法のケーススタディを提供し、ラベルはグループの1つからの変数にのみ依存します。
理論的には、勾配降下によって訓練された1層変圧器は、注意メカニズムを選択して選択した変数を選択し、無関係な変数を無視し、分類に有益な変数に焦点を当てることができることを理論的に実証します。
また、適切に昇格した1層変圧器を、限られた数のサンプルで良好な予測精度を実現するために、新しいダウンストリームタスクに適応できることを実証します。
私たちの研究は、変圧器が構造化されたデータを効果的に学習する方法に光を当てています。

要約(オリジナル)

Transformers have demonstrated remarkable success across various applications. However, the success of transformers have not been understood in theory. In this work, we give a case study of how transformers can be trained to learn a classic statistical model with ‘group sparsity’, where the input variables form multiple groups, and the label only depends on the variables from one of the groups. We theoretically demonstrate that, a one-layer transformer trained by gradient descent can correctly leverage the attention mechanism to select variables, disregarding irrelevant ones and focusing on those beneficial for classification. We also demonstrate that a well-pretrained one-layer transformer can be adapted to new downstream tasks to achieve good prediction accuracy with a limited number of samples. Our study sheds light on how transformers effectively learn structured data.

arxiv情報

著者 Chenyang Zhang,Xuran Meng,Yuan Cao
発行日 2025-04-11 15:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク