Standards for Belief Representations in LLMs

要約

大規模な言語モデル(LLM)は、さまざまなドメインで顕著な能力を実証し続けているため、コンピューター科学者は、特にLLMが世界についての信念を内部的に表していることに関して、認知プロセスを理解する方法を開発しています。
しかし、この分野は現在、LLMSへの信念の研究を支える統一された理論的基盤を欠いています。
この記事では、LLMの表現の妥当性条件を信念のようなものとしてカウントすることを提案することにより、このギャップを埋め始めます。
LLMSの信念測定のプロジェクトは、意思決定理論と正式な認識論で行われた信念測定と印象的な特徴を共有しているが、信念の測定方法を変えるべき方法でも異なると主張している。
したがって、機械学習の哲学と現代的な実践の洞察と現代的な実践から、理論的な考慮事項と実際の制約のバランスをとる4つの基準を確立します。
提案されている基準には、正確性、一貫性、均一性、および使用が含まれます。これらは、LLMSの信念表現を包括的に理解するための基礎を築くのに役立ちます。
私たちは、信念表現を特定するために、さまざまな基準を単独で使用することの限界を示す経験的作業を利用します。

要約(オリジナル)

As large language models (LLMs) continue to demonstrate remarkable abilities across various domains, computer scientists are developing methods to understand their cognitive processes, particularly concerning how (and if) LLMs internally represent their beliefs about the world. However, this field currently lacks a unified theoretical foundation to underpin the study of belief in LLMs. This article begins filling this gap by proposing adequacy conditions for a representation in an LLM to count as belief-like. We argue that, while the project of belief measurement in LLMs shares striking features with belief measurement as carried out in decision theory and formal epistemology, it also differs in ways that should change how we measure belief. Thus, drawing from insights in philosophy and contemporary practices of machine learning, we establish four criteria that balance theoretical considerations with practical constraints. Our proposed criteria include accuracy, coherence, uniformity, and use, which together help lay the groundwork for a comprehensive understanding of belief representation in LLMs. We draw on empirical work showing the limitations of using various criteria in isolation to identify belief representations.

arxiv情報

著者 Daniel A. Herrmann,Benjamin A. Levinstein
発行日 2025-03-14 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク