要約
この研究では、大規模言語モデル (LLM) の反事実推論機能の領域を掘り下げます。
私たちの主な目的は、LLM 内で反事実的な思考プロセスを育成し、これらのプロセスの妥当性を厳密に評価することです。
具体的には、新しいタスクである Counterfactual Logical Modification (CLOMO) と、人による注釈付きの高品質ベンチマークを導入します。
このタスクでは、LLM は、所定の論理関係を維持するために、指定された議論テキストを巧みに変更する必要があります。
生成モデルの反事実能力を効果的に評価するために、タスクを多肢選択問題としてモデル化するのではなく、LLM の自然言語出力を直接評価する革新的な評価指標である LogicAware Counterfactual Score を提案します。
分析の結果、提案された自動メトリクスが人間の好みとよく一致していることがわかりました。
私たちの実験結果は、LLM が論理的に反事実的な思考をする顕著な能力を示している一方で、彼らの現在の能力と人間のパフォーマンスの間には依然として明らかなギャップがあることを示しています。
要約(オリジナル)
In this study, we delve into the realm of counterfactual reasoning capabilities of large language models (LLMs). Our primary objective is to cultivate the counterfactual thought processes within LLMs and rigorously assess these processes for their validity. Specifically, we introduce a novel task, Counterfactual Logical Modification (CLOMO), and a high-quality human-annotated benchmark. In this task, LLMs must adeptly alter a given argumentative text to uphold a predetermined logical relationship. To effectively evaluate a generation model’s counterfactual capabilities, we propose an innovative evaluation metric, the LogicAware Counterfactual Score to directly evaluate the natural language output of LLMs instead of modeling the task as a multiple-choice problem. Analysis shows that the proposed automatic metric aligns well with human preference. Our experimental results show that while LLMs demonstrate a notable capacity for logical counterfactual thinking, there remains a discernible gap between their current abilities and human performance.
arxiv情報
著者 | Yinya Huang,Ruixin Hong,Hongming Zhang,Wei Shao,Zhicheng Yang,Dong Yu,Changshui Zhang,Xiaodan Liang,Linqi Song |
発行日 | 2023-11-29 08:29:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google