Self-Recognition in Language Models

要約

少数のクローズドソース言語モデル (LM) に依存するアプリケーションの数が急速に増加しています。
LM が自己認識機能を開発すると、この依存関係により新たなセキュリティ リスクが生じる可能性があります。
人間の身元確認方法にヒントを得て、モデルで生成された「セキュリティの質問」を使用して LM の自己認識を評価するための新しいアプローチを提案します。
私たちのテストは、内部モデルのパラメーターや出力確率にアクセスする必要がないため、フロンティア モデルを追跡するために外部から管理できます。
私たちはテストを使用して、現在公開されている最も機能的なオープンソースおよびクローズドソースの LM 10 個の自己認識を検査します。
私たちの広範な実験では、調査したどのLMでも一般的または一貫した自己認識の経験的証拠は見つかりませんでした。
むしろ、私たちの結果は、一連の選択肢が与えられた場合、LM はその起源に関係なく「最良の」答えを選択しようとすることを示唆しています。
さらに、どのモデルが最良の答えを生み出すかという好みが LM 間で一貫しているという兆候も見つかりました。
さらに、多肢選択設定における LM の位置バイアスの考慮事項に関する新しい洞察も明らかにします。

要約(オリジナル)

A rapidly growing number of applications rely on a small set of closed-source language models (LMs). This dependency might introduce novel security risks if LMs develop self-recognition capabilities. Inspired by human identity verification methods, we propose a novel approach for assessing self-recognition in LMs using model-generated ‘security questions’. Our test can be externally administered to keep track of frontier models as it does not require access to internal model parameters or output probabilities. We use our test to examine self-recognition in ten of the most capable open- and closed-source LMs currently publicly available. Our extensive experiments found no empirical evidence of general or consistent self-recognition in any examined LM. Instead, our results suggest that given a set of alternatives, LMs seek to pick the ‘best’ answer, regardless of its origin. Moreover, we find indications that preferences about which models produce the best answers are consistent across LMs. We additionally uncover novel insights on position bias considerations for LMs in multiple-choice settings.

arxiv情報

著者 Tim R. Davidson,Viacheslav Surkov,Veniamin Veselovsky,Giuseppe Russo,Robert West,Caglar Gulcehre
発行日 2024-07-09 15:23:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク