要約
最近の大規模な事前トレーニング済みニューラル言語モデル (LLM) の成功にもかかわらず、事前トレーニング中に学習する言語構造の表現についてはほとんど知られていないため、即時的な変動や分布の変化に応じて予期せぬ動作を引き起こす可能性があります。
これらのモデルと動作をより深く理解するために、人間が解釈可能な言語特性の表現と使用に関して LLM を研究するための一般的なモデル分析フレームワークを導入します。
私たちのフレームワークである CALM (言語モデルの能力ベース分析) は、因果関係の調査を使用してさまざまな言語特性のモデルの内部表現に介入し、これらの介入の下でモデルの整合性を測定することにより、特定のタスクのコンテキストで LLM 能力を調査するように設計されています。
タスクの特定のグラウンドトゥルース因果モデル。
また、勾配ベースの敵対的攻撃を使用して因果関係を調査する介入を実行するための新しいアプローチも開発します。これは、従来の技術よりも広範囲のプロパティと表現をターゲットにすることができます。
最後に、これらの介入を使用して CALM のケーススタディを実行し、さまざまな語彙推論タスクにわたる LLM 能力を分析および比較し、CALM を使用してこれらのタスク全体の動作を説明および予測できることを示します。
要約(オリジナル)
Despite the recent successes of large, pretrained neural language models (LLMs), comparatively little is known about the representations of linguistic structure they learn during pretraining, which can lead to unexpected behaviors in response to prompt variation or distribution shift. To better understand these models and behaviors, we introduce a general model analysis framework to study LLMs with respect to their representation and use of human-interpretable linguistic properties. Our framework, CALM (Competence-based Analysis of Language Models), is designed to investigate LLM competence in the context of specific tasks by intervening on models’ internal representations of different linguistic properties using causal probing, and measuring models’ alignment under these interventions with a given ground-truth causal model of the task. We also develop a new approach for performing causal probing interventions using gradient-based adversarial attacks, which can target a broader range of properties and representations than prior techniques. Finally, we carry out a case study of CALM using these interventions to analyze and compare LLM competence across a variety of lexical inference tasks, showing that CALM can be used to explain and predict behaviors across these tasks.
arxiv情報
著者 | Adam Davies,Jize Jiang,ChengXiang Zhai |
発行日 | 2024-08-21 17:27:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google