要約
合理性の規範は機械学習モデル、特に言語モデルに適用されますか?
この論文では、合理的規範の特別なサブセットである一貫性規範に焦点を当てて、この問題を調査します。
私たちは、論理的な一貫性の規範と、信念の強さに関連する一貫性の規範の両方を考慮します。
後者を理解するために、我々は Minimal Assent Connection (MAC) を導入し、言語モデルにおける信念の強さを捉える新しい信頼性の説明を提案します。
この提案は、単純にモデル内部の次のトークンの確率に基づいて信念の強さを均一に割り当てます。
私たちは、一貫性と結びついた合理的規範は一部の言語モデルには適用されるが、他の言語モデルには適用されないと主張します。
合理性は動作の予測と説明に密接に関連しているため、この問題は重要であり、AI の安全性と調整に関する考慮事項、さらにはモデルの動作をより一般的に理解することにも関連しています。
要約(オリジナル)
Do norms of rationality apply to machine learning models, in particular language models? In this paper we investigate this question by focusing on a special subset of rational norms: coherence norms. We consider both logical coherence norms as well as coherence norms tied to the strength of belief. To make sense of the latter, we introduce the Minimal Assent Connection (MAC) and propose a new account of credence, which captures the strength of belief in language models. This proposal uniformly assigns strength of belief simply on the basis of model internal next token probabilities. We argue that rational norms tied to coherence do apply to some language models, but not to others. This issue is significant since rationality is closely tied to predicting and explaining behavior, and thus it is connected to considerations about AI safety and alignment, as well as understanding model behavior more generally.
arxiv情報
| 著者 | Thomas Hofweber,Peter Hase,Elias Stengel-Eskin,Mohit Bansal |
| 発行日 | 2024-06-05 16:36:21+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google