要約
算術演算、要約統計量、並べ替えなどのアルゴリズム タスクを解決するニューラル ネットワークの機能に対する関心が高まっています。
Transformers のような最先端のモデルは、分散内タスクでは良好な汎化パフォーマンスを実証していますが、エンドツーエンドでトレーニングした場合、分散外 (OOD) のパフォーマンスは劣ります。
このペーパーでは、値の一般化に焦点を当てます。これは、テスト分布がトレーニング分布と同じ入力シーケンス長を持ちますが、トレーニング分布とテスト分布の値の範囲が必ずしも重複するわけではない、OOD 一般化の一般的なインスタンスです。
この問題に対処するために、固定位置エンコーディングを使用してアテンションの重み (位置アテンションと呼ばれます) を決定することで、表現力を維持しながら経験的な OOD パフォーマンスを向上させることを提案します。
私たちは、位置注意を備えたトランスフォーマーが並列アルゴリズムを効果的にシミュレートできることを証明することで、表現力に関する私たちの主張を支持します。
要約(オリジナル)
There has been a growing interest in the ability of neural networks to solve algorithmic tasks, such as arithmetic, summary statistics, and sorting. While state-of-the-art models like Transformers have demonstrated good generalization performance on in-distribution tasks, their out-of-distribution (OOD) performance is poor when trained end-to-end. In this paper, we focus on value generalization, a common instance of OOD generalization where the test distribution has the same input sequence length as the training distribution, but the value ranges in the training and test distributions do not necessarily overlap. To address this issue, we propose that using fixed positional encodings to determine attention weights-referred to as positional attention-enhances empirical OOD performance while maintaining expressivity. We support our claim about expressivity by proving that Transformers with positional attention can effectively simulate parallel algorithms.
arxiv情報
著者 | Artur Back de Luca,George Giapitzakis,Shenghao Yang,Petar Veličković,Kimon Fountoulakis |
発行日 | 2024-10-02 15:55:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google