要約
大規模な言語モデル(LLM)は、解釈的および推論的精度を必要とするタスクでますます使用されています。
この論文では、明示的な因果推論でLLMを評価するための新しいデータセットであるExplicaを紹介します。
Explicaは、さまざまな言語順序で提示され、言語接続によって明示的に表現される因果関係と時間的関係の両方を独自に統合します。
データセットには、クラウドソーシングの人間の受容性評価が豊富です。
プロンプトと困惑ベースのメトリックを通じて、ExplicaでLLMSをテストしました。
7つのコマーシャルおよびオープンソースLLMSを評価し、トップモデルでさえ0.80の精度に達するのに苦労していることが明らかになりました。
興味深いことに、モデルは因果関係のある関係と時間的関係を混乱させる傾向があり、そのパフォーマンスは、イベントの言語順序によっても強く影響されます。
最後に、困惑ベースのスコアとプロンプトのパフォーマンスは、モデルサイズによって異なる影響を受けます。
要約(オリジナル)
Large Language Models (LLMs) are increasingly used in tasks requiring interpretive and inferential accuracy. In this paper, we introduce ExpliCa, a new dataset for evaluating LLMs in explicit causal reasoning. ExpliCa uniquely integrates both causal and temporal relations presented in different linguistic orders and explicitly expressed by linguistic connectives. The dataset is enriched with crowdsourced human acceptability ratings. We tested LLMs on ExpliCa through prompting and perplexity-based metrics. We assessed seven commercial and open-source LLMs, revealing that even top models struggle to reach 0.80 accuracy. Interestingly, models tend to confound temporal relations with causal ones, and their performance is also strongly influenced by the linguistic order of the events. Finally, perplexity-based scores and prompting performance are differently affected by model size.
arxiv情報
著者 | Martina Miliani,Serenna Auriemma,Alessandro Bondielli,Emmanuele Chersoni,Lucia Passaro,Irene Sucameli,Alessandro Lenci |
発行日 | 2025-02-21 14:23:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google