Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs

要約

NLP における解釈可能性の研究のほとんどは、完全にトレーニングされたモデルの動作と特徴を理解することに焦点を当てています。
ただし、モデルの動作に関する特定の洞察は、トレーニング プロセスの軌跡を観察することによってのみ得られる場合があります。
この論文では、マスク言語モデル (MLM) における構文獲得のケーススタディを紹介します。
私たちの調査結果は、トレーニングを通じて解釈可能なアーティファクトの進化を分析することで、新たな行動に対する理解がどのように深まるかを示しています。
特に、特定の Transformer ヘッドが特定の構文関係に焦点を当てる傾向がある MLM の自然に出現する特性である Syntactic tention Structure (SAS) を研究します。
トレーニング中にモデルが突然 SAS を取得する短いウィンドウを特定し、このウィンドウが損失の急激な低下と同時に発生することを発見しました。
さらに、SAS はその後の言語能力の習得を促進します。
次に、トレーニング中に SAS を操作するための正則化プログラムを導入することで、SAS の因果的役割を調べ、SAS が文法能力の発達に必要であることを示します。
さらに、SAS はトレーニング中に他の有益な特性や機能と競合すること、SAS を一時的に抑制するとモデルの品質が向上することもわかりました。
これらの発見は、不利な単純性バイアスと解釈可能な画期的なトレーニングダイナミクスとの関係の実世界の例を明らかにしています。

要約(オリジナル)

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. In this paper, we present a case study of syntax acquisition in masked language models (MLMs). Our findings demonstrate how analyzing the evolution of interpretable artifacts throughout training deepens our understanding of emergent behavior. In particular, we study Syntactic Attention Structure (SAS), a naturally emerging property of MLMs wherein specific Transformer heads tend to focus on specific syntactic relations. We identify a brief window in training when models abruptly acquire SAS and find that this window is concurrent with a steep drop in loss. Moreover, SAS precipitates the subsequent acquisition of linguistic capabilities. We then examine the causal role of SAS by introducing a regularizer to manipulate SAS during training, and demonstrate that SAS is necessary for the development of grammatical capabilities. We further find that SAS competes with other beneficial traits and capabilities during training, and that briefly suppressing SAS can improve model quality. These findings reveal a real-world example of the relationship between disadvantageous simplicity bias and interpretable breakthrough training dynamics.

arxiv情報

著者 Angelica Chen,Ravid Shwartz-Ziv,Kyunghyun Cho,Matthew L. Leavitt,Naomi Saphra
発行日 2023-09-27 14:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク