On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent

要約

人工知能における最新の魅力的な進歩の 1 つは、人間の会話をシミュレートできるチャットボットである ChatGPT です。
ChatGPT は、生成語源表現に基づく言語モデルである GPT4 のインスタンスです。
したがって、そのような人工知能がどれほど強力であるかを理論的な観点から研究したい場合、1 つのアプローチは、変圧器ネットワークを検討し、これらのネットワークでどのような問題を理論的に解決できるかを研究することです。
ここでは、これらのネットワークがどのような種類のモデルを近似できるか、または具体的なデータセットに対して可能な限り最良の近似を選択して学習した知識をどのように一般化できるかだけでなく、具体的なデータセットに基づいてそのような変圧器ネットワークの最適化がどの程度うまく機能するかが重要です。

この記事では、これら 3 つの異なる側面をすべて同時に検討し、観測データに適合した変圧器ネットワークの誤分類確率の理論的な上限を示します。
簡単にするために、このコンテキストでは、自然言語を含む分類問題のコンテキストで推定値を定義するために適用できるトランスエンコーダー ネットワークに焦点を当てます。

要約(オリジナル)

One of the most recent and fascinating breakthroughs in artificial intelligence is ChatGPT, a chatbot which can simulate human conversation. ChatGPT is an instance of GPT4, which is a language model based on generative gredictive gransformers. So if one wants to study from a theoretical point of view, how powerful such artificial intelligence can be, one approach is to consider transformer networks and to study which problems one can solve with these networks theoretically. Here it is not only important what kind of models these network can approximate, or how they can generalize their knowledge learned by choosing the best possible approximation to a concrete data set, but also how well optimization of such transformer network based on concrete data set works. In this article we consider all these three different aspects simultaneously and show a theoretical upper bound on the missclassification probability of a transformer network fitted to the observed data. For simplicity we focus in this context on transformer encoder networks which can be applied to define an estimate in the context of a classification problem involving natural language.

arxiv情報

著者 Michael Kohler,Adam Krzyzak
発行日 2023-12-28 13:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク