Causal Reasoning of Entities and Events in Procedural Texts

要約

エンティティとイベントは、自然言語の推論に不可欠であり、手続き型テキストでは一般的です。
既存の研究では、エンティティの状態の追跡 (例: 鍋が熱いかどうか) またはイベントの推論 (例: 鍋に触れると火傷するかどうか) のみに焦点が当てられていますが、これら 2 つのタスクはしばしば因果関係があります。
イベントの妥当性とエンティティの状態の因果推論に関する最初のベンチマークである CREPE を提案します。
GPT-3 を含むほとんどの言語モデルは、0.87 F1 で人間に大きく遅れをとって、0.35 F1 でチャンスに近いパフォーマンスを発揮することを示しています。
コードで事前トレーニングされた言語モデルを促しながら、イベントをプログラミング言語として創造的に表現することで、モデルのパフォーマンスを .59 F1 にまで高めます。
エンティティとイベント間の因果関係を表現の中間推論ステップとして挿入することにより、パフォーマンスをさらに .67 F1 に向上させます。
私たちの調査結果は、CREPE が言語モデルにもたらす課題だけでなく、マルチホップ イベント推論のための一連の思考プロンプトと組み合わせたコードのようなプロンプトの有効性も示しています。

要約(オリジナル)

Entities and events are crucial to natural language reasoning and common in procedural texts. Existing work has focused either exclusively on entity state tracking (e.g., whether a pan is hot) or on event reasoning (e.g., whether one would burn themselves by touching the pan), while these two tasks are often causally related. We propose CREPE, the first benchmark on causal reasoning of event plausibility and entity states. We show that most language models, including GPT-3, perform close to chance at .35 F1, lagging far behind human at .87 F1. We boost model performance to .59 F1 by creatively representing events as programming languages while prompting language models pretrained on code. By injecting the causal relations between entities and events as intermediate reasoning steps in our representation, we further boost the performance to .67 F1. Our findings indicate not only the challenge that CREPE brings for language models, but also the efficacy of code-like prompting combined with chain-of-thought prompting for multihop event reasoning.

arxiv情報

著者 Li Zhang,Hainiu Xu,Yue Yang,Shuyan Zhou,Weiqiu You,Manni Arora,Chris Callison-Burch
発行日 2023-02-16 13:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク