Do Transformers know symbolic rules, and would we know if they did?

要約

NLP で使用される主要な Transformer ネットワークの説明可能性を向上させるには、単なる連想入出力パターンから本物の記号規則を切り離すことが重要です。
しかし、最近の NLP 文献で「シンボリック性」がどのように解釈されているかについて、いくつかの矛盾を特定しています。
この問題を軽減するために、システムの内部アーキテクチャに関連するものと、抽象ルールと特定の入力 ID との間の分離に関連するものの 2 つの基準が最も関連性があることを提案します。
この観点から、トランスフォーマーの象徴的な能力に関する以前の研究を批判的に調査し、実験計画に固有の理由により、結果は根本的に決定的ではないと見なします。
さらに、この問題はエンドツーエンドのすべての設定である程度発生するため、簡単な解決策はないと主張しています。
それにもかかわらず、一見象徴的なタスクで成功するための非象徴的な説明が存在するかどうかについて、より堅牢な評価の必要性を強調します。
これを容易にするために、2 つの実験設定で T5 Transformer の 4 つのシーケンス モデリング タスクを実験します。
T5 の一般化は、同等の分類タスクよりもシーケンスからシーケンスへのタスクで著しく強いことがわかります。
これに基づいて、これまで見過ごされてきた分析を提案します。ここでは、トランスフォーマー自体がプロセッサとしてのシンボリック アーキテクチャの一部になるためにシンボリックである必要はなく、外部メモリ コンポーネントとして入力と出力を操作します。

要約(オリジナル)

To improve the explainability of leading Transformer networks used in NLP, it is important to tease apart genuine symbolic rules from merely associative input-output patterns. However, we identify several inconsistencies in how “symbolicity” has been construed in recent NLP literature. To mitigate this problem, we propose two criteria to be the most relevant, one pertaining to a system’s internal architecture and the other to the dissociation between abstract rules and specific input identities. From this perspective, we critically examine prior work on the symbolic capacities of Transformers, and deem the results to be fundamentally inconclusive for reasons inherent in experiment design. We further maintain that there is no simple fix to this problem, since it arises — to an extent — in all end-to-end settings. Nonetheless, we emphasize the need for more robust evaluation of whether non-symbolic explanations exist for success in seemingly symbolic tasks. To facilitate this, we experiment on four sequence modelling tasks on the T5 Transformer in two experiment settings: zero-shot generalization, and generalization across class-specific vocabularies flipped between the training and test set. We observe that T5’s generalization is markedly stronger in sequence-to-sequence tasks than in comparable classification tasks. Based on this, we propose a thus far overlooked analysis, where the Transformer itself does not need to be symbolic to be part of a symbolic architecture as the processor, operating on the input and output as external memory components.

arxiv情報

著者 Tommi Gröndahl,Yujia Guo,N. Asokan
発行日 2023-03-01 10:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク