Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability

要約

さまざまなリスクや特性に対する言語モデルの評価に対する関心が高まっています。
自然言語理解に基づいて採点する評価は、多くの場合、他の言語モデルを使用することで大規模に実行できます。
新しい欺瞞評価を含む、さまざまなデータセットへの注入に対するこれらのモデルによる評価の堅牢性をテストします。
これらの注入は、採点を変更するための受験者と評価者間の直接コミュニケーションに似ています。
将来的には、よりインテリジェントなモデルが評価モデルを操作したり、評価モデルと連携したりする可能性があると考えられます。
調査したすべての評価において、最先端の商用モデルではこれらの注入に対する重大な感受性が見つかりました。
さらに、同様のインジェクションを自動解釈フレームワークで使用して、誤解を招くモデルで記述された説明を生成する可能性があります。
この結果は今後の研究にインスピレーションを与えるものであり、評価や自動解釈に対する無条件の信頼に対して警告する必要があります。

要約(オリジナル)

There has been increasing interest in evaluations of language models for a variety of risks and characteristics. Evaluations relying on natural language understanding for grading can often be performed at scale by using other language models. We test the robustness of these model-graded evaluations to injections on different datasets including a new Deception Eval. These injections resemble direct communication between the testee and the evaluator to change their grading. We extrapolate that future, more intelligent models might manipulate or cooperate with their evaluation model. We find significant susceptibility to these injections in state-of-the-art commercial models on all examined evaluations. Furthermore, similar injections can be used on automated interpretability frameworks to produce misleading model-written explanations. The results inspire future work and should caution against unqualified trust in evaluations and automated interpretability.

arxiv情報

著者 Simon Lermen,Ondřej Kvapil
発行日 2023-12-08 11:16:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク