Do language models have coherent mental models of everyday things?

要約

日常的なものを卵のようなものと考えるとき、人々は通常、それを連想させる心のイメージを持ちます。
これにより、たとえば「黄身が殻を囲んでいる」が虚偽であると正しく判断できるようになります。
言語モデルも同様に、そのような日常的な事柄についての一貫した全体像を持っているのでしょうか?
これを調査するために、11,720 個の「X 関係 Y?」として表現される、100 個の日常的な物、その部分、およびこれらの部分間の関係から構成されるベンチマーク データセットを提案します。
正誤質問。
これらの質問をプローブとして使用すると、GPT-3 やコンゴウインコのような最先端の事前トレーニング済み言語モデル (LM) は、これらの日常的な事柄について断片的な知識を持っていますが、完全に一貫した「部分メンタル モデル」を持っていないことがわかります。
(精度 54 ~ 59%、条件制約違反 19 ~ 43%)。
常識的な制約を適用するために、LM の生の予測の上に制約満足層を追加する拡張を提案します。
不一致を取り除くだけでなく、これにより精度も大幅に向上することがわかり (16 ~ 20%)、日常の物事を撮影した LM の写真の一貫性のなさが大幅に軽減されることがわかります。

要約(オリジナル)

When people think of everyday things like an egg, they typically have a mental image associated with it. This allows them to correctly judge, for example, that ‘the yolk surrounds the shell’ is a false statement. Do language models similarly have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts, expressed as 11,720 ‘X relation Y?’ true/false questions. Using these questions as probes, we observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these everyday things, but do not have fully coherent ‘parts mental models’ (54-59% accurate, 19-43% conditional constraint violation). We propose an extension where we add a constraint satisfaction layer on top of the LM’s raw predictions to apply commonsense constraints. As well as removing inconsistencies, we find that this also significantly improves accuracy (by 16-20%), suggesting how the incoherence of the LM’s pictures of everyday things can be significantly reduced.

arxiv情報

著者 Yuling Gu,Bhavana Dalvi Mishra,Peter Clark
発行日 2023-06-08 17:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク