Eliciting Latent Knowledge from Quirky Language Models

要約

潜在知識の引き出し (ELK) は、特にモデルの出力が信頼できない検証が困難な場合に、世界の真の状態を確実に追跡する、有能なニューラル ネットワークの活性化のパターンを見つけることを目的としています。
ELK の研究をさらに進めるために、12 のデータセットと、プロンプトにキーワード「Bob」が存在する場合にのみ、質問に答えるときに系統的なエラーを起こすように微調整された「風変わりな」言語モデル (LM) の対応するスイートを導入します。
特に中間層では、線形プローブは通常、LM の出力とは無関係に LM の知識を報告するため、モデルの虚偽の出力にもかかわらず正しい答えを導き出すことができることがわかりました。
最良の調査方法 (コントラスト ペアのロジスティック回帰) では、真実と虚偽のコンテキスト間の AUROC のギャップの 89% が回復され、プローブのトレーニングに使用された質問よりも難しい質問の場合は 75% が回復されます。
また、機械的な異常検出アプローチにより、0.95 AUROC で虚偽の動作にフラグを立てることができることもわかりました。
私たちの結果は、有能だが信頼できないモデルから信頼できる知識を導き出せる可能性を示しており、ELK 手法を実証的に調査する将来の研究を促進します。

要約(オリジナル)

Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural network’s activations that robustly track the true state of the world, especially in hard-to-verify cases where the model’s output is untrusted. To further ELK research, we introduce 12 datasets and a corresponding suite of ‘quirky’ language models (LMs) that are finetuned to make systematic errors when answering questions if and only if the keyword ‘Bob’ is present in the prompt. We find that, especially in middle layers, linear probes usually report an LM’s knowledge independently of what the LM outputs, enabling us to elicit the correct answer despite the model’s untruthful output. The best probing method (logistic regression on contrast pairs) recovers 89% of the gap in AUROC between truthful and untruthful contexts, and 75% for questions harder than those used to train the probe. We also find that a mechanistic anomaly detection approach can flag untruthful behavior with 0.95 AUROC. Our results show promise for eliciting reliable knowledge from capable but untrusted models, and facilitates future research empirically investigating ELK methods.

arxiv情報

著者 Alex Mallen,Madeline Brumley,Julia Kharchenko,Nora Belrose
発行日 2024-08-09 17:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク