Empirical Capacity Model for Self-Attention Neural Networks

要約

大規模な事前学習済み自己注意ニューラル ネットワーク、またはトランスフォーマーは、最近さまざまなタスクで非常に成功しています。
特定のタスクにおけるモデルのパフォーマンスは、トレーニング データを記憶し一般化する能力に依存します。
大規模な変圧器モデルには数十億のパラメータがある可能性があり、理論的には内容を記憶する膨大な容量があります。
しかし、現在の最適化アルゴリズムは理論上の容量を下回っており、その容量はコンテンツにも大きく依存します。
この論文では、一般的なトレーニング アルゴリズムと合成トレーニング データを使用して取得されたこれらのモデルのメモリ容量に焦点を当てます。
その結果に基づいて、一般的な変圧器の経験的容量モデル (ECM) を導き出します。
ECM を使用すると、タスクの目標記憶能力を定義できる場合に、最適な数のパラメーターを使用してタスク固有のトランスフォーマー モデルを設計できます。

要約(オリジナル)

Large pretrained self-attention neural networks, or transformers, have been very successful in various tasks recently. The performance of a model on a given task depends on its ability to memorize and generalize the training data. Large transformer models, which may have billions of parameters, in theory have a huge capacity to memorize content. However, the current algorithms for the optimization fall short of the theoretical capacity, and the capacity is also highly dependent on the content. In this paper, we focus on the memory capacity of these models obtained using common training algorithms and synthetic training data. Based on the results, we derive an empirical capacity model (ECM) for a generic transformer. The ECM can be used to design task-specific transformer models with an optimal number of parameters in cases where the target memorization capability of the task can be defined.

arxiv情報

著者 Aki Härmä,Marcin Pietrasik,Anna Wilbik
発行日 2024-07-31 10:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク