要約
「おそらく」や「非常にありそうもない」といった不確実性の表現は人間の言語に浸透しています。
これまでの研究では、人間がこれらの表現をどのように解釈するかに関して集団レベルの合意があることが確立されていますが、そのような表現を解釈する言語モデルの能力についてはほとんど調査されていませんでした。
この論文では、言語モデルが不確実性の言語表現を数値応答にどのようにマッピングするかを調査します。
私たちのアプローチは、言語モデルがこの設定、つまり特定のステートメントに関するモデル自身の確実性とは独立して、そのステートメントに関する別のエージェントの不確実性を理解する場合に心の理論を採用できるかどうかを評価します。
これらの能力を評価するために作成されたタスクで、人間と 10 の一般的な言語モデルの両方を評価します。
予想外なことに、10 モデル中 8 モデルが人間のような方法で不確実性表現を確率的応答にマッピングできることがわかりました。
ただし、ステートメントが実際に真であるか偽であるかに応じて、体系的に異なる動作が観察されます。
この感度は、言語モデルが(人間と比較して)事前の知識に基づくバイアスの影響を大幅に受けやすいことを示しています。
これらの発見は重要な疑問を提起し、人間とAIの連携やAIとAIのコミュニケーションに広範な影響を及ぼします。
要約(オリジナル)
Uncertainty expressions such as “probably” or “highly unlikely” are pervasive in human language. While prior work has established that there is population-level agreement in terms of how humans interpret these expressions, there has been little inquiry into the abilities of language models to interpret such expressions. In this paper, we investigate how language models map linguistic expressions of uncertainty to numerical responses. Our approach assesses whether language models can employ theory of mind in this setting: understanding the uncertainty of another agent about a particular statement, independently of the model’s own certainty about that statement. We evaluate both humans and 10 popular language models on a task created to assess these abilities. Unexpectedly, we find that 8 out of 10 models are able to map uncertainty expressions to probabilistic responses in a human-like manner. However, we observe systematically different behavior depending on whether a statement is actually true or false. This sensitivity indicates that language models are substantially more susceptible to bias based on their prior knowledge (as compared to humans). These findings raise important questions and have broad implications for human-AI alignment and AI-AI communication.
arxiv情報
| 著者 | Catarina G Belem,Markelle Kelly,Mark Steyvers,Sameer Singh,Padhraic Smyth | 
| 発行日 | 2024-07-22 17:26:12+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
