FOLIO: Natural Language Reasoning with First-Order Logic

要約

大規模言語モデル (LLM) は、さまざまな自然言語理解タスクで顕著なパフォーマンスを達成しました。
ただし、既存のベンチマークは、モデルの複雑な論理的推論能力を測定するには不十分です。
FOLIO は、一次論理 (FOL) アノテーションを備えた、自然言語 (NL) で推論するための人によるアノテーション付きの論理的に複雑で多様なデータセットです。
FOLIO は 1,430 の例 (固有の結論) で構成されており、各例は、各結論の妥当性を演繹的に推論するために使用される 487 セットの前提の 1 つとペアになっています。
前提と結論の論理的な正しさは、FOL アノテーションによって保証され、FOL 推論エンジンによって自動的に検証されます。
メインの NL 推論タスクに加えて、FOLIO の NL-FOL ペアは新しい NL-FOL 変換データセットを構成します。
FOLIO に関する私たちの実験では、中規模の言語モデルに対する教師あり微調整の FOL 推論能力を体系的に評価しています。
NL 推論と NL-FOL 翻訳の両方について、複数の最先端の言語モデルをベンチマークします。
私たちの結果は、FOLIO のサブセットが、公的に利用可能な最も有能な {Large Language Model (LLM)} の 1 つである GPT-4 に対して課題を提示していることを示しています。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable performance on a variety of natural language understanding tasks. However, existing benchmarks are inadequate in measuring the complex logical reasoning capabilities of a model. We present FOLIO, a human-annotated, logically complex and diverse dataset for reasoning in natural language (NL), equipped with first-order logic (FOL) annotations. FOLIO consists of 1,430 examples (unique conclusions), each paired with one of 487 sets of premises used to deductively reason for the validity of each conclusion. The logical correctness of the premises and conclusions is ensured by their FOL annotations, which are automatically verified by an FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO constitute a new NL-FOL translation dataset. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models. For both NL reasoning and NL-FOL translation, we benchmark multiple state-of-the-art language models. Our results show that a subset of FOLIO presents a challenge for one of the most capable {Large Language Model (LLM)} publicly available, GPT-4.

arxiv情報

著者 Simeng Han,Hailey Schoelkopf,Yilun Zhao,Zhenting Qi,Martin Riddell,Wenfei Zhou,James Coady,David Peng,Yujie Qiao,Luke Benson,Lucy Sun,Alex Wardle-Solano,Hannah Szabo,Ekaterina Zubova,Matthew Burtell,Jonathan Fan,Yixin Liu,Brian Wong,Malcolm Sailor,Ansong Ni,Linyong Nan,Jungo Kasai,Tao Yu,Rui Zhang,Alexander R. Fabbri,Wojciech Kryscinski,Semih Yavuz,Ye Liu,Xi Victoria Lin,Shafiq Joty,Yingbo Zhou,Caiming Xiong,Rex Ying,Arman Cohan,Dragomir Radev
発行日 2024-05-17 15:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク