Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks

要約

最先端のモデルの「ブラック ボックス」の性質により、深層学習言語モデルの調査は常に重要な研究分野でした。
トランスフォーマーに基づく事前トレーニング済み言語モデルが最近進歩し、日常生活への統合が進んでいることにより、この問題への対処がより緊急になっています。
説明可能な AI モデルを実現するには、関係する手順を理解し、人間の思考プロセスと比較することが不可欠です。
したがって、この論文では、単純でよく理解されている非言語タスクを使用して、これらのモデルの内部動作を調査します。
具体的には、事前トレーニングされた言語モデルを階層構造を持つ制約付き算術問題に適用し、その注意の重みスコアと隠れ状態を分析します。
この調査では、このモデルが人間の問題解決戦略と同様に、適度に構造化された方法で階層的問題に対処しているという、有望な結果が明らかになりました。
さらに、アテンション ウェイトをレイヤーごとに検査することにより、モデルを微調整するためのパラメーターの使用量が最も少ないアプローチでフリーズを解除するのに最適なレイヤーは、モデルの最終レイヤーではなくレイヤー 10 であるという型破りな発見が明らかになりました。
私たちは、エントロピー分析とトークン埋め込みの類似性分析によってこれらの発見をサポートします。
アテンション分析により、モデルが ListOps データセット内のより長いシーケンスに一般化できるという仮説が立てられます。この結論は、後にトレーニング セット内のシーケンスよりも長いシーケンスに対するテストを通じて確認されました。
最後に、モデルが三目並べゲームの勝者を予測する単純なタスクを利用することで、注意分析の限界、特に 2D パターンをキャプチャできないことを特定します。

要約(オリジナル)

Investigating deep learning language models has always been a significant research area due to the “black box’ nature of most advanced models. With the recent advancements in pre-trained language models based on transformers and their increasing integration into daily life, addressing this issue has become more pressing. In order to achieve an explainable AI model, it is essential to comprehend the procedural steps involved and compare them with human thought processes. Thus, in this paper, we use simple, well-understood non-language tasks to explore these models’ inner workings. Specifically, we apply a pre-trained language model to constrained arithmetic problems with hierarchical structure, to analyze their attention weight scores and hidden states. The investigation reveals promising results, with the model addressing hierarchical problems in a moderately structured manner, similar to human problem-solving strategies. Additionally, by inspecting the attention weights layer by layer, we uncover an unconventional finding that layer 10, rather than the model’s final layer, is the optimal layer to unfreeze for the least parameter-intensive approach to fine-tune the model. We support these findings with entropy analysis and token embeddings similarity analysis. The attention analysis allows us to hypothesize that the model can generalize to longer sequences in ListOps dataset, a conclusion later confirmed through testing on sequences longer than those in the training set. Lastly, by utilizing a straightforward task in which the model predicts the winner of a Tic Tac Toe game, we identify limitations in attention analysis, particularly its inability to capture 2D patterns.

arxiv情報

著者 Mohamad Ballout,Ulf Krumnack,Gunther Heidemann,Kai-Uwe Kühnberger
発行日 2023-06-21 11:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク