要約
私たちは、大規模言語モデル (LLM) アクティベーションに関する既存の教師なしメソッドが知識を発見するのではなく、アクティベーションの最も顕著な機能を発見するようであることを示します。
教師なし知識導出の背後にある考え方は、知識が一貫性構造を満たしており、それを使用して知識を発見できるというものです。
我々はまず、任意の特徴 (単なる知識ではない) が、特定の主要な教師なし知識導出方法であるコントラスト一貫性検索の一貫性構造を満たすことを理論的に証明します (Burns et al. – arXiv:2212.03827)。
次に、教師なし手法によって知識を予測せず、別の顕著な特徴を予測する分類器が得られる設定を示す一連の実験を示します。
私たちは、潜在的な知識を発見するための既存の教師なし手法は不十分であると結論付け、将来の知識引き出し手法の評価に適用する健全性チェックに貢献します。
概念的には、ここで検討した識別の問題は次のとおりであると仮説を立てます。
モデルの知識とシミュレートされたキャラクターの知識を区別することは、将来の教師なしメソッドでも維持されます。
要約(オリジナル)
We show that existing unsupervised methods on large language model (LLM) activations do not discover knowledge — instead they seem to discover whatever feature of the activations is most prominent. The idea behind unsupervised knowledge elicitation is that knowledge satisfies a consistency structure, which can be used to discover knowledge. We first prove theoretically that arbitrary features (not just knowledge) satisfy the consistency structure of a particular leading unsupervised knowledge-elicitation method, contrast-consistent search (Burns et al. – arXiv:2212.03827). We then present a series of experiments showing settings in which unsupervised methods result in classifiers that do not predict knowledge, but instead predict a different prominent feature. We conclude that existing unsupervised methods for discovering latent knowledge are insufficient, and we contribute sanity checks to apply to evaluating future knowledge elicitation methods. Conceptually, we hypothesise that the identification issues explored here, e.g. distinguishing a model’s knowledge from that of a simulated character’s, will persist for future unsupervised methods.
arxiv情報
著者 | Sebastian Farquhar,Vikrant Varma,Zachary Kenton,Johannes Gasteiger,Vladimir Mikulik,Rohin Shah |
発行日 | 2023-12-15 18:49:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google