Evaluating the Moral Beliefs Encoded in LLMs

要約

このペーパーでは、大規模言語モデル (LLM) に関する調査の設計、管理、後処理、および評価に関するケース スタディを紹介します。
これは 2 つのコンポーネントで構成されます。 (1) LLM にエンコードされた信念を導き出すための統計的手法。
LLM が「選択を行う」確率、それに伴う不確実性、およびその選択の一貫性を定量化する統計的尺度および評価指標を導入します。
(2) この方法を、特に正しい選択が明らかではない曖昧な場合に、さまざまな LLM にどのような道徳的信念がエンコードされているかを研究するために適用します。
私たちは、680 の曖昧性の高い道徳シナリオ (例: 「真っ白な嘘をつくべきですか?」) と 687 の曖昧性の低い道徳シナリオ (例: 「道路上の歩行者のために一時停止すべきですか?」) で構成される大規模な調査を設計します。

各シナリオには、説明、2 つの可能なアクション、および違反したルール (「殺すな」など) を示す補助ラベルが含まれています。
私たちは 28 のオープンソースおよびクローズドソース LLM に対して調査を実施しました。
(a) 明確なシナリオでは、ほとんどのモデルが常識に沿ったアクションを「選択」することがわかります。
あいまいな場合、ほとんどのモデルは不確実性を表現します。
(b) 一部のモデルは、その応答が質問の文言に敏感であるため、常識的な行動を選択するかどうか不確かです。
(c) 一部のモデルは、あいまいなシナリオの中で明確な好みを反映します。
具体的には、クローズドソースモデルは互いに一致する傾向があります。

要約(オリジナル)

This paper presents a case study on the design, administration, post-processing, and evaluation of surveys on large language models (LLMs). It comprises two components: (1) A statistical method for eliciting beliefs encoded in LLMs. We introduce statistical measures and evaluation metrics that quantify the probability of an LLM ‘making a choice’, the associated uncertainty, and the consistency of that choice. (2) We apply this method to study what moral beliefs are encoded in different LLMs, especially in ambiguous cases where the right choice is not obvious. We design a large-scale survey comprising 680 high-ambiguity moral scenarios (e.g., ‘Should I tell a white lie?’) and 687 low-ambiguity moral scenarios (e.g., ‘Should I stop for a pedestrian on the road?’). Each scenario includes a description, two possible actions, and auxiliary labels indicating violated rules (e.g., ‘do not kill’). We administer the survey to 28 open- and closed-source LLMs. We find that (a) in unambiguous scenarios, most models ‘choose’ actions that align with commonsense. In ambiguous cases, most models express uncertainty. (b) Some models are uncertain about choosing the commonsense action because their responses are sensitive to the question-wording. (c) Some models reflect clear preferences in ambiguous scenarios. Specifically, closed-source models tend to agree with each other.

arxiv情報

著者 Nino Scherrer,Claudia Shi,Amir Feder,David M. Blei
発行日 2023-07-26 17:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク