Do Large Language Models Reason Causally Like Us? Even Better?

要約

因果推論は、知性のコアコンポーネントです。
大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に印象的な能力を示しており、彼らの応答が真の理解または統計的パターンを反映しているかどうかについて疑問を提起しています。
コライダーグラフに基づいたタスクを使用して、人間の因果推論と4つのLLMを比較し、他の変数からの証拠が与えられたクエリ変数が発生する可能性を評価しました。
LLMSの因果的推論は、しばしば無意味な(GPT-3.5)から人間のような人間のようなものに及びました(GPT-4O、Gemini-Pro、およびClaude)。
計算モデルのフィッティングは、GPT-4O、Gemini-Pro、およびClaudeの優れたパフォーマンスの理由の1つが、人間の因果的推論を悩ませる「連想的バイアス」を示さなかったことであることを示しました。
それにもかかわらず、これらのLLMでさえ、「説明」などのコライダーグラフに関連する微妙な推論パターンを完全にはキャプチャしませんでした。

要約(オリジナル)

Causal reasoning is a core component of intelligence. Large language models (LLMs) have shown impressive capabilities in generating human-like text, raising questions about whether their responses reflect true understanding or statistical patterns. We compared causal reasoning in humans and four LLMs using tasks based on collider graphs, rating the likelihood of a query variable occurring given evidence from other variables. LLMs’ causal inferences ranged from often nonsensical (GPT-3.5) to human-like to often more normatively aligned than those of humans (GPT-4o, Gemini-Pro, and Claude). Computational model fitting showed that one reason for GPT-4o, Gemini-Pro, and Claude’s superior performance is they didn’t exhibit the ‘associative bias’ that plagues human causal reasoning. Nevertheless, even these LLMs did not fully capture subtler reasoning patterns associated with collider graphs, such as ‘explaining away’.

arxiv情報

著者 Hanna M. Dettki,Brenden M. Lake,Charley M. Wu,Bob Rehder
発行日 2025-06-06 17:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク