要約
因果推論は人間の知性の特徴の 1 つです。
CausalNLP の分野は近年多くの関心を集めていますが、NLP における既存の因果推論データセットは主に経験的知識 (常識知識など) からの因果関係の発見に依存しています。
この研究では、大規模言語モデル (LLM) の純粋な因果推論スキルをテストするための最初のベンチマーク データセットを提案します。
具体的には、一連の相関ステートメントを受け取り、変数間の因果関係を判断する新しいタスク Corr2Cause を定式化します。
私たちは 20 万サンプルを超える大規模なデータセットを厳選し、それに基づいて 17 の既存の LLM を評価します。
私たちの実験を通じて、因果推論スキルの点で LLM の主要な欠点を特定し、これらのモデルがタスクに関してほぼランダムに近いパフォーマンスを達成することを示しました。
この欠点は、微調整によってこのスキル用に LLM を再利用しようとするといくらか軽減されますが、これらのモデルはまだ一般化できていないことがわかります。変数名とテキスト表現が配布環境で使用されている場合、配布環境設定で因果推論しか実行できません。
クエリはトレーニング セットのクエリと似ていますが、これらのクエリを混乱させることによって生成された分布外設定では失敗します。
Corr2Cause は LLM にとって困難なタスクであり、LLM の純粋な推論スキルと一般化可能性を向上させるための将来の研究を導くのに役立つでしょう。
データは https://huggingface.co/datasets/causalnlp/corr2cause にあります。
コードは https://github.com/causalNLP/corr2cause にあります。
要約(オリジナル)
Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 200K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize — they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs’ pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.
arxiv情報
著者 | Zhijing Jin,Jiarui Liu,Zhiheng Lyu,Spencer Poff,Mrinmaya Sachan,Rada Mihalcea,Mona Diab,Bernhard Schölkopf |
発行日 | 2023-12-31 15:22:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google