Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models

要約

論理的推論は、思考、議論、計画などの複雑な人間の活動の中心です。
また、多くの AI システムの中心的なコンポーネントでもあります。
この論文では、エンコーダ専用のトランスフォーマー言語モデル (LM) が論理規則に従ってどの程度推論できるかを調査します。
私たちは、これらの LM が命題微積分と一次論理の定理を演繹できるかどうかを尋ねます。
これらの問題における相対的な成功が一般的な論理能力を反映しているかどうか。
そしてどの層がタスクに最も貢献しているのか。
まず、いくつかのエンコーダ専用 LM を適切な程度までトレーニングして、さまざまなデータセットの論理的妥当性を判断できることを示します。
次に、これらのデータセットで微調整されたモデルをクロスプローブすることで、LM が推定の論理的推論能力を伝達するのが難しいことを示します。これは、LM が一般的な能力ではなく、データセット固有の特徴を学習した可能性があることを示唆しています。
最後に、層ごとの調査実験を実行します。これは、仮説分類タスクのほとんどが上位層を通じて解決されることを示します。

要約(オリジナル)

Logical reasoning is central to complex human activities, such as thinking, debating, and planning; it is also a central component of many AI systems as well. In this paper, we investigate the extent to which encoder-only transformer language models (LMs) can reason according to logical rules. We ask whether those LMs can deduce theorems in propositional calculus and first-order logic; if their relative success in these problems reflects general logical capabilities; and which layers contribute the most to the task. First, we show for several encoder-only LMs that they can be trained, to a reasonable degree, to determine logical validity on various datasets. Next, by cross-probing fine-tuned models on these datasets, we show that LMs have difficulty in transferring their putative logical reasoning ability, which suggests that they may have learned dataset-specific features, instead of a general capability. Finally, we conduct a layerwise probing experiment, which shows that the hypothesis classification task is mostly solved through higher layers.

arxiv情報

著者 Paulo Pirozelli,Marcos M. José,Paulo de Tarso P. Filho,Anarosa A. F. Brandão,Fabio G. Cozman
発行日 2024-07-01 13:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク