Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation

要約

因果推論能力は、多くのNLPアプリケーションにとって極めて重要です。ChatGPTが様々なNLPタスクで目覚ましい能力を発揮しているにもかかわらず、ChatGPTが因果推論でどの程度の能力を発揮しているかは不明である。本論文では、ChatGPTの因果推論能力の最初の包括的な評価を実施します。実験によると、ChatGPTは優れた因果推論器ではなく、優れた因果解釈器であることがわかりました。その上、ChatGPTは因果推論に深刻な幻覚を持っており、おそらく自然言語における因果関係と非因果関係の間の報告バイアスや、RLHFなどのChatGPTのアップグレード処理に起因している。また、In-Context Learning (ICL)やChain-of-Though (COT)の技術は、このような因果関係の幻覚をさらに悪化させる可能性があります。さらに、ChatGPTの因果推論能力は、プロンプトで因果概念を表現するために使用される単語に敏感で、クローズエンド型プロンプトはオープンエンド型プロンプトよりも性能が高い。文中の事象については、ChatGPTは暗黙の因果関係よりも明示的な因果関係を捉えることに優れ、事象の密度が低く、事象間の語彙的距離が小さい文においてより高いパフォーマンスを発揮する。

要約(オリジナル)

Causal reasoning ability is crucial for numerous NLP applications. Despite the impressive emerging ability of ChatGPT in various NLP tasks, it is unclear how well ChatGPT performs in causal reasoning. In this paper, we conduct the first comprehensive evaluation of the ChatGPT’s causal reasoning capabilities. Experiments show that ChatGPT is not a good causal reasoner, but a good causal interpreter. Besides, ChatGPT has a serious hallucination on causal reasoning, possibly due to the reporting biases between causal and non-causal relationships in natural language, as well as ChatGPT’s upgrading processes, such as RLHF. The In-Context Learning (ICL) and Chain-of-Though (COT) techniques can further exacerbate such causal hallucination. Additionally, the causal reasoning ability of ChatGPT is sensitive to the words used to express the causal concept in prompts, and close-ended prompts perform better than open-ended prompts. For events in sentences, ChatGPT excels at capturing explicit causality rather than implicit causality, and performs better in sentences with lower event density and smaller lexical distance between events.

arxiv情報

著者 Jinglong Gao,Xiao Ding,Bing Qin,Ting Liu
発行日 2023-05-12 10:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク