要約
ツール拡張大規模言語モデル (LLM) を使用して論理的推論の問題を解決する最近成功したパラダイムは、自然言語ステートメントの一次論理 (FOL) および外部定理証明器への変換を活用しています。
ただし、演算子とテキスト述語で構成される FOL ステートメントの正確性は、生成された FOL とグラウンドトゥルースの FOL を比較するための信頼できる評価基準がないため、検証されないことがよくあります。
この論文では、既存の指標の感度と、FOL 評価における人間の判断との整合性に関する包括的な研究を紹介します。
グラウンド トゥルース FOL を使用して、グラウンド トゥルース上のさまざまな摂動を注意深く設計し、メトリクスの感度を評価しました。
自然言語ステートメントの FOL 翻訳候補をサンプリングし、自動メトリクスと人間のアノテーターの間のランキングの整合性を測定します。
私たちの経験的発見は、テキスト摂動に対する n グラム メトリクス BLEU、構造的摂動に対するセマンティック グラフ メトリクス Smatch++、およびオペレータ摂動に対する FOL メトリクスの過敏性を強調しています。
また、BertScore と人間の判断がより緊密に一致していることも観察されています。
さらに、個別のメトリクスを使用する場合と比較して、メトリクスを組み合わせることで整合性と感度の両方が向上することを示します。
要約(オリジナル)
The recent successful paradigm of solving logical reasoning problems with tool-augmented large language models (LLMs) leverages translation of natural language statements into First-Order Logic~(FOL) and external theorem provers. However, the correctness of FOL statements, comprising operators and text predicates, often goes unverified due to the lack of a reliable evaluation metric for comparing generated and ground-truth FOLs. In this paper, we present a comprehensive study of sensitivity of existing metrics and their alignment with human judgement on FOL evaluation. Using ground-truth FOLs, we carefully designed various perturbations on the ground-truth to assess metric sensitivity. We sample FOL translation candidates for natural language statements and measure the ranking alignment between automatic metrics and human annotators. Our empirical findings highlight oversensitivity in the n-gram metric BLEU for text perturbations, the semantic graph metric Smatch++ for structural perturbations, and FOL metric for operator perturbation. We also observe a closer alignment between BertScore and human judgement. Additionally, we show that combining metrics enhances both alignment and sensitivity compared to using individual metrics.
arxiv情報
著者 | Ramya Keerthy Thatikonda,Wray Buntine,Ehsan Shareghi |
発行日 | 2025-01-15 06:22:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google