Enhancing Ethical Explanations of Large Language Models through Iterative Symbolic Refinement

要約

自然言語推論 (NLI) では、大規模言語モデル (LLM) とその推論機能の適用と評価に焦点を当てた研究が増えています。
ただし、LLM は成功したにもかかわらず、依然として事実誤認や説明の不一致が発生する傾向があり、複雑な領域での推論の制御と解釈可能性が制限されています。
この論文では、倫理的 NLI に焦点を当て、ハイブリッド神経記号技術が LLM によって生成される倫理的説明の論理的妥当性と整合性をどのように強化できるかを調査します。
具体的には、Logic-Explainer と呼ばれるアブダクティブ・演繹的フレームワークを紹介します。これは、LLM を外部のバックワードチェーン・ソルバーと統合して、段階的な自然言語説明を改良し、それらの正しさを共同で検証し、不完全性を減らし、冗長性を最小限に抑えます。
広範な実証分析により、Logic-Explainer は、困難な倫理的 NLI タスクに関して、コンテキスト内学習方法と思考連鎖 (CoT) によって生成される説明を改善できると同時に、モデルの推論を記述およびサポートする正式な証明を生成できることが実証されています。

倫理的 NLI では根底にある道徳違反を特定するために常識的な推論が必要であるため、今回の結果は、より広範な多段階 NLI に対する神経記号的手法の有効性を示唆しており、LLM の論理的一貫性、信頼性、整合性を強化する新たな機会をもたらします。

要約(オリジナル)

An increasing amount of research in Natural Language Inference (NLI) focuses on the application and evaluation of Large Language Models (LLMs) and their reasoning capabilities. Despite their success, however, LLMs are still prone to factual errors and inconsistencies in their explanations, offering limited control and interpretability for inference in complex domains. In this paper, we focus on ethical NLI, investigating how hybrid neuro-symbolic techniques can enhance the logical validity and alignment of ethical explanations produced by LLMs. Specifically, we present an abductive-deductive framework named Logic-Explainer, which integrates LLMs with an external backward-chaining solver to refine step-wise natural language explanations and jointly verify their correctness, reduce incompleteness and minimise redundancy. An extensive empirical analysis demonstrates that Logic-Explainer can improve explanations generated via in-context learning methods and Chain-of-Thought (CoT) on challenging ethical NLI tasks, while, at the same time, producing formal proofs describing and supporting models’ reasoning. As ethical NLI requires commonsense reasoning to identify underlying moral violations, our results suggest the effectiveness of neuro-symbolic methods for multi-step NLI more broadly, opening new opportunities to enhance the logical consistency, reliability, and alignment of LLMs.

arxiv情報

著者 Xin Quan,Marco Valentino,Louise A. Dennis,André Freitas
発行日 2024-02-01 16:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク