Do large language models and humans have similar behaviors in causal inference with script knowledge?

要約

最近、大規模な事前トレーニング済み言語モデル (LLM) が、ゼロショット因果推論を含む優れた言語理解能力を実証しました。
ただし、彼らの能力が人間の能力とどの程度似ているかは不明です。
ここでは、前のイベント $A$ に因果的に依存する、スクリプトベースのストーリーにおけるイベント $B$ の処理を​​研究します。
私たちの操作では、テキストの前のセクションでイベント $A$ が記述、否定、または省略されています。
まず、自己ペース読書実験を行ったところ、因果関係の矛盾が存在する場合($\neg A \rightarrow B$)、論理的条件下($A \rightarrow B$)よりも人間の読書時間が大幅に長くなることを示しました。
ただし、原因 A が明示的に言及されていない場合でも、読み取り時間は同様のままであり、人間がスクリプトの知識からイベント B を容易に推測できることを示しています。
次に、同じデータに対してさまざまな LLM をテストし、モデルが人間の行動をどの程度再現しているかを確認しました。
私たちの実験によると、1) GPT-3 や Vicuna などの最近の LLM のみが $\neg A \rightarrow B$ 条件における人間の行動と相関します。
2) この相関関係にもかかわらず、すべてのモデルは $nil \rightarrow B$ が $\neg A \rightarrow B$ よりも驚くべきことではないことを予測できず、LLM がスクリプトの知識を統合するのが依然として困難であることを示しています。
私たちのコードと収集されたデータセットは、https://github.com/tony-hong/causal-script で入手できます。

要約(オリジナル)

Recently, large pre-trained language models (LLMs) have demonstrated superior language understanding abilities, including zero-shot causal reasoning. However, it is unclear to what extent their capabilities are similar to human ones. We here study the processing of an event $B$ in a script-based story, which causally depends on a previous event $A$. In our manipulation, event $A$ is stated, negated, or omitted in an earlier section of the text. We first conducted a self-paced reading experiment, which showed that humans exhibit significantly longer reading times when causal conflicts exist ($\neg A \rightarrow B$) than under logical conditions ($A \rightarrow B$). However, reading times remain similar when cause A is not explicitly mentioned, indicating that humans can easily infer event B from their script knowledge. We then tested a variety of LLMs on the same data to check to what extent the models replicate human behavior. Our experiments show that 1) only recent LLMs, like GPT-3 or Vicuna, correlate with human behavior in the $\neg A \rightarrow B$ condition. 2) Despite this correlation, all models still fail to predict that $nil \rightarrow B$ is less surprising than $\neg A \rightarrow B$, indicating that LLMs still have difficulties integrating script knowledge. Our code and collected data set are available at https://github.com/tony-hong/causal-script.

arxiv情報

著者 Xudong Hong,Margarita Ryzhova,Daniel Adrian Biondi,Vera Demberg
発行日 2023-11-13 13:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.0 パーマリンク