要約
ChatGPTのようなAIアシスタントは、『私は大規模な言語モデルです』と言ってユーザーに応答するように訓練されている。これは疑問を投げかける。そのようなモデルは、自分がLLMであることを知っていて、その知識に基づいて確実に行動するのだろうか?一般に配備されているなど、現在の状況を認識しているのだろうか?私たちは、モデルが自分自身とその状況について知っていることを、状況認識と呼んでいる。LLMの状況認識を定量化するために、質問に対する答えと指示に従うことに基づいた様々な行動テストを導入する。これらのテストは、$textbf{Situational Awareness Dataset (SAD)}$という7つのタスクカテゴリと13,000以上の質問からなるベンチマークを形成する。このベンチマークでは、(i)LLM自身が生成したテキストを認識する能力、(ii)自身の行動を予測する能力、(iii)プロンプトが内部評価によるものか実世界展開によるものかを判断する能力、(iv)自己知識に依存する指示に従う能力など、多くの能力がテストされる。 我々は、ベース(事前学習済み)モデルとチャットモデルの両方を含む16のLLMをSAD上で評価した。すべてのモデルが偶然の結果よりも良い結果を出しているが、最も高いスコアを出したモデル(Claude 3 Opus)でさえ、特定のタスクでは人間のベースラインからは程遠い。また、SADの性能は、一般的な知識(MMLUなど)の測定基準では部分的にしか予測できないことがわかる。AIアシスタントとして機能するように微調整されたチャットモデルは、SADでは対応するベースモデルを上回るが、一般知識タスクでは上回らない。SADの目的は、LLMの状況認識を定量的な能力に分解することで、科学的な理解を促進することである。状況認識は、モデルの自律的な計画と行動の能力を高めるので重要である。これは自動化にとって潜在的な利点がある一方で、AIの安全性と制御に関する新たなリスクももたらします。コードと最新の結果はhttps://situational-awareness-dataset.org 。
要約(オリジナル)
AI assistants such as ChatGPT are trained to respond to users by saying, ‘I am a large language model’. This raises questions. Do such models know that they are LLMs and reliably act on this knowledge? Are they aware of their current circumstances, such as being deployed to the public? We refer to a model’s knowledge of itself and its circumstances as situational awareness. To quantify situational awareness in LLMs, we introduce a range of behavioral tests, based on question answering and instruction following. These tests form the $\textbf{Situational Awareness Dataset (SAD)}$, a benchmark comprising 7 task categories and over 13,000 questions. The benchmark tests numerous abilities, including the capacity of LLMs to (i) recognize their own generated text, (ii) predict their own behavior, (iii) determine whether a prompt is from internal evaluation or real-world deployment, and (iv) follow instructions that depend on self-knowledge. We evaluate 16 LLMs on SAD, including both base (pretrained) and chat models. While all models perform better than chance, even the highest-scoring model (Claude 3 Opus) is far from a human baseline on certain tasks. We also observe that performance on SAD is only partially predicted by metrics of general knowledge (e.g. MMLU). Chat models, which are finetuned to serve as AI assistants, outperform their corresponding base models on SAD but not on general knowledge tasks. The purpose of SAD is to facilitate scientific understanding of situational awareness in LLMs by breaking it down into quantitative abilities. Situational awareness is important because it enhances a model’s capacity for autonomous planning and action. While this has potential benefits for automation, it also introduces novel risks related to AI safety and control. Code and latest results available at https://situational-awareness-dataset.org .
arxiv情報
著者 | Rudolf Laine,Bilal Chughtai,Jan Betley,Kaivalya Hariharan,Jeremy Scheurer,Mikita Balesni,Marius Hobbhahn,Alexander Meinke,Owain Evans |
発行日 | 2024-07-05 17:57:02+00:00 |
arxivサイト | arxiv_id(pdf) |