Transformers and Cortical Waves: Encoders for Pulling In Context Across Time

要約

ChatGPT やその他の大規模言語モデル (LLM) などの変換ネットワークの機能は、世界の注目を集めています。
それらのパフォーマンスの基礎となる重要な計算メカニズムは、完全な入力シーケンス (たとえば、文内のすべての単語) を長い「エンコード ベクトル」に変換することに依存しており、これにより、トランスフォーマーは自然主義的なシーケンスにおける長距離の時間依存関係を学習できます。
具体的には、このエンコード ベクトルに適用される「セルフ アテンション」は、入力シーケンス内の単語のペア間の関連性を計算することにより、トランスフォーマー内の時間的コンテキストを強化します。
私たちは、脳全体のスケールで単一の皮質領域または複数の領域を伝わる神経活動の波が、同様の符号化原理を実装できる可能性があることを示唆しています。
最近の入力履歴を各瞬間の単一の空間パターンにカプセル化することで、皮質波は一連の感覚入力から時間的コンテキストを抽出できる可能性があります。これは変換器で使用されるのと同じ計算原理です。

要約(オリジナル)

The capabilities of transformer networks such as ChatGPT and other Large Language Models (LLMs) have captured the world’s attention. The crucial computational mechanism underlying their performance relies on transforming a complete input sequence – for example, all the words in a sentence – into a long ‘encoding vector’ that allows transformers to learn long-range temporal dependencies in naturalistic sequences. Specifically, ‘self-attention’ applied to this encoding vector enhances temporal context in transformers by computing associations between pairs of words in the input sequence. We suggest that waves of neural activity traveling across single cortical areas or multiple regions at the whole-brain scale could implement a similar encoding principle. By encapsulating recent input history into a single spatial pattern at each moment in time, cortical waves may enable temporal context to be extracted from sequences of sensory inputs, the same computational principle used in transformers.

arxiv情報

著者 Lyle Muller,Patricia S. Churchland,Terrence J. Sejnowski
発行日 2024-08-16 14:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク