Interpretability of Language Models via Task Spaces

要約

言語モデル (LM) を解釈する通常の方法は、さまざまなベンチマークでパフォーマンスをテストし、その後内部プロセスを推測することです。
この論文では、言語能力に焦点を当て、LM 処理の品質に焦点を当てた別のアプローチを紹介します。
この目的を達成するために、私たちは、LM が言語現象の間に描くつながりを明らかにする「言語タスク空間」 (LM の言語概念化の表現) を構築します。
タスク空間は、さまざまな言語現象からの学習シグナルの相互作用に基づいており、これは「類似性プローブ」と呼ばれる方法で評価されます。
言語現象の学習信号を解きほぐすために、「勾配微分による微調整」(FTGD) と呼ばれる方法をさらに導入します。
私たちの方法を 3 つの異なるスケールの言語モデルに適用したところ、より大きなモデルは言語タスクの包括的な一般概念をより適切に一般化し、共有構造をよりよく利用していることがわかりました。
さらに、関連する言語タスク間でのパラメータ共有の増加により、事前トレーニングにより言語処理の分散性が高まります。
全体的な一般化パターンはトレーニング全体を通じてほとんど安定しており、激しい段階によって特徴付けられていないため、LM のカリキュラム戦略が成功していないことが潜在的に説明されています。

要約(オリジナル)

The usual way to interpret language models (LMs) is to test their performance on different benchmarks and subsequently infer their internal processes. In this paper, we present an alternative approach, concentrating on the quality of LM processing, with a focus on their language abilities. To this end, we construct ‘linguistic task spaces’ — representations of an LM’s language conceptualisation — that shed light on the connections LMs draw between language phenomena. Task spaces are based on the interactions of the learning signals from different linguistic phenomena, which we assess via a method we call ‘similarity probing’. To disentangle the learning signals of linguistic phenomena, we further introduce a method called ‘fine-tuning via gradient differentials’ (FTGD). We apply our methods to language models of three different scales and find that larger models generalise better to overarching general concepts for linguistic tasks, making better use of their shared structure. Further, the distributedness of linguistic processing increases with pre-training through increased parameter sharing between related linguistic tasks. The overall generalisation patterns are mostly stable throughout training and not marked by incisive stages, potentially explaining the lack of successful curriculum strategies for LMs.

arxiv情報

著者 Lucas Weber,Jaap Jumelet,Elia Bruni,Dieuwke Hupkes
発行日 2024-06-10 16:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク