要約
不確実性、リスク、限界を伝える能力は、大規模言語モデルの安全性にとって極めて重要である。しかし、これらの能力に関する現在の評価は、モデルによって生成された言語が適切な確率に一致するかどうかを問う、単純なキャリブレーションに頼っている。その代わりに、LLMコミュニケーションのこの側面の評価は、人間の対話者の行動に焦点を当てるべきである。ここでは、人間がLLM世代に依存しているかどうかを測定する、Rel-A.I.(「依存」と発音)と呼ばれる相互作用中心の評価フレームワークを紹介する。このフレームワークを用いて、対話の文脈的特徴(例えば、議論されている知識領域)や、温かさや有能さを伝える挨拶(例えば、「お役に立ててうれしいです!」)の使用が、依存にどのような影響を与えるかを研究する。私たちは、文脈の特徴が人間の依存行動に大きく影響することを発見した。例えば、人は計算を含む質問に答える際、10%多くLMに依存し、より有能であると認識されるLMに30%多く依存する。この結果は、キャリブレーションや言語の質だけでは、人間とLMの相互作用のリスクを評価するには不十分であることを示しており、相互作用の文脈の特徴を考慮する必要性を示している。
要約(オリジナル)
The ability to communicate uncertainty, risk, and limitation is crucial for the safety of large language models. However, current evaluations of these abilities rely on simple calibration, asking whether the language generated by the model matches appropriate probabilities. Instead, evaluation of this aspect of LLM communication should focus on the behaviors of their human interlocutors: how much do they rely on what the LLM says? Here we introduce an interaction-centered evaluation framework called Rel-A.I. (pronounced ‘rely’}) that measures whether humans rely on LLM generations. We use this framework to study how reliance is affected by contextual features of the interaction (e.g, the knowledge domain that is being discussed), or the use of greetings communicating warmth or competence (e.g., ‘I’m happy to help!’). We find that contextual characteristics significantly affect human reliance behavior. For example, people rely 10% more on LMs when responding to questions involving calculations and rely 30% more on LMs that are perceived as more competent. Our results show that calibration and language quality alone are insufficient in evaluating the risks of human-LM interactions, and illustrate the need to consider features of the interactional context.
arxiv情報
著者 | Kaitlyn Zhou,Jena D. Hwang,Xiang Ren,Nouha Dziri,Dan Jurafsky,Maarten Sap |
発行日 | 2024-10-03 16:54:59+00:00 |
arxivサイト | arxiv_id(pdf) |