要約
言語モデルの導入は、特にこれらのモデルが人間の好みを使用して微調整されている場合に、信頼できる情報を生成する際に課題をもたらします。
人間による(潜在的に)偏ったラベルなしでエンコードされた知識を抽出するために、コントラスト一貫性検索(CCS)のような教師なし探索技術が開発されました(Burns et al.、2022)。
ただし、特定のデータセット内の顕著ではあるが無関係な特徴は、これらのプローブを誤解させる可能性があります (Farquhar et al., 2023)。
これに対処して、教師なしプローブ技術を適用する前にコントラストペアの活性化をクラスタリングして正規化することにより、そのような特徴の影響を最小限に抑えるクラスター正規化方法を提案します。
このアプローチは、潜在知識の引き出しに関する文献における主要な問題である、一般的な知識と模擬知識とを区別する問題には対処していませんが(Christiano et al., 2021)、意図された知識を識別する教師なしプローブの能力を大幅に向上させます。
気を散らす中で。
要約(オリジナル)
The deployment of language models brings challenges in generating reliable information, especially when these models are fine-tuned using human preferences. To extract encoded knowledge without (potentially) biased human labels, unsupervised probing techniques like Contrast-Consistent Search (CCS) have been developed (Burns et al., 2022). However, salient but unrelated features in a given dataset can mislead these probes (Farquhar et al., 2023). Addressing this, we propose a cluster normalization method to minimize the impact of such features by clustering and normalizing activations of contrast pairs before applying unsupervised probing techniques. While this approach does not address the issue of differentiating between knowledge in general and simulated knowledge – a major issue in the literature of latent knowledge elicitation (Christiano et al., 2021) – it significantly improves the ability of unsupervised probes to identify the intended knowledge amidst distractions.
arxiv情報
著者 | Walter Laurito,Sharan Maiya,Grégoire Dhimoïla,Owen,Yeung,Kaarel Hänni |
発行日 | 2024-07-26 12:57:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google