要約
「おそらく」や「非常にありそうもない」などの_不確実性の表現_は人間の言語に広く浸透しています。
これまでの研究では、人間がこれらの表現を定量的に解釈する方法に関して集団レベルの合意があることが確立されていますが、同じ文脈における言語モデルの能力についてはほとんど調査されていませんでした。
この論文では、言語モデルが不確実性の言語表現を数値応答にどのようにマッピングするかを調査します。
私たちのアプローチは、言語モデルがこの設定、つまり特定のステートメントに関するモデル自身の確実性とは独立して、そのステートメントに関する別のエージェントの不確実性を理解する場合に心の理論を採用できるかどうかを評価します。
10 モデル中 7 モデルが人間のような方法で不確実性表現を確率的応答にマッピングできることがわかりました。
ただし、ステートメントが実際に真であるか偽であるかに応じて、体系的に異なる動作が観察されます。
この感度は、言語モデルが(人間と比較して)事前の知識に基づくバイアスの影響を大幅に受けやすいことを示しています。
これらの発見は重要な疑問を提起し、人間とAI、およびAIとAIのコミュニケーションに広範な影響を及ぼします。
要約(オリジナル)
_Uncertainty expressions_ such as ‘probably’ or ‘highly unlikely’ are pervasive in human language. While prior work has established that there is population-level agreement in terms of how humans quantitatively interpret these expressions, there has been little inquiry into the abilities of language models in the same context. In this paper, we investigate how language models map linguistic expressions of uncertainty to numerical responses. Our approach assesses whether language models can employ theory of mind in this setting: understanding the uncertainty of another agent about a particular statement, independently of the model’s own certainty about that statement. We find that 7 out of 10 models are able to map uncertainty expressions to probabilistic responses in a human-like manner. However, we observe systematically different behavior depending on whether a statement is actually true or false. This sensitivity indicates that language models are substantially more susceptible to bias based on their prior knowledge (as compared to humans). These findings raise important questions and have broad implications for human-AI and AI-AI communication.
arxiv情報
著者 | Catarina G Belem,Markelle Kelly,Mark Steyvers,Sameer Singh,Padhraic Smyth |
発行日 | 2024-11-07 17:33:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google