Analyzing Transformer Dynamics as Movement through Embedding Space

要約

Transformer 言語モデルは、自然言語の理解、パターンの認識、知識の獲得、推論、計画、反映、ツールの使用などのインテリジェントな動作を示します。
この論文では、その根底にある仕組みがどのようにして知的な行動を生み出すのかを探ります。
私たちはシステムアプローチを採用してトランスフォーマーを詳細に分析し、そのダイナミクスを埋め込み空間を通る動きとして組み立てる数学的フレームワークを開発します。
この新しい視点は、問題についての原則的な考え方を提供し、知性の出現に関連する重要な洞察を明らかにします。 1. トランスフォーマーの核心は、埋め込みスペースウォーカーであり、インテリジェントな動作をこのベクトル空間の軌道にマッピングします。
2. ウォークの各ステップで、コンテキストを単一の複合ベクトルに合成します。エンベディング スペース内の位置によって次のステップが定義されます。
3. デコード中に実際には学習は行われません。
コンテキスト内の学習と一般化は、単に異なるコンテキストが異なるベクトルを構成した結果です。
4. 最終的に、モデルによって示される知識、知性、スキルは、特定のニューロンや層ではなく、埋め込み空間内のベクトルの組織化に具体化されます。
これらの能力はこの組織の財産です。
5. アテンションの貢献は、要約すると、アテンションがベクトル合成に与え、前述の組織に影響を与える関連バイアスに帰着します。
ただし、その重要性を確認するにはさらなる調査が必要です。
6. モデル全体は、データに依存しないフィルタリングとデータに依存する集計という 2 つの主要な操作で構成されます。
この一般化により、Transformer が他のシーケンス モデルおよびモダリティ間で統合されます。
この基礎に基づいて、埋め込みベクトルが意味論的概念を表すと仮定する意味論的空間理論を形式化してテストし、その有効性の証拠をいくつか見つけます。

要約(オリジナル)

Transformer language models exhibit intelligent behaviors such as understanding natural language, recognizing patterns, acquiring knowledge, reasoning, planning, reflecting and using tools. This paper explores how their underlying mechanics give rise to intelligent behaviors. We adopt a systems approach to analyze Transformers in detail and develop a mathematical framework that frames their dynamics as movement through embedding space. This novel perspective provides a principled way of thinking about the problem and reveals important insights related to the emergence of intelligence: 1. At its core the Transformer is a Embedding Space walker, mapping intelligent behavior to trajectories in this vector space. 2. At each step of the walk, it composes context into a single composite vector whose location in Embedding Space defines the next step. 3. No learning actually occurs during decoding; in-context learning and generalization are simply the result of different contexts composing into different vectors. 4. Ultimately the knowledge, intelligence and skills exhibited by the model are embodied in the organization of vectors in Embedding Space rather than in specific neurons or layers. These abilities are properties of this organization. 5. Attention’s contribution boils down to the association-bias it lends to vector composition and which influences the aforementioned organization. However, more investigation is needed to ascertain its significance. 6. The entire model is composed from two principal operations: data independent filtering and data dependent aggregation. This generalization unifies Transformers with other sequence models and across modalities. Building upon this foundation we formalize and test a semantic space theory which posits that embedding vectors represent semantic concepts and find some evidence of its validity.

arxiv情報

著者 Sumeet S. Singh
発行日 2023-08-21 17:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク