Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning

要約

LLaMA、Alpaca、Vicuna、GPT-3.5、GPT-4 などの大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにおける AI システムのパフォーマンスを人間と同等のレベルまで進化させました。
ただし、論理的推論を実行する際の一般性と堅牢性は十分に評価されていません。
この能力を包括的に評価するために、LLM の推論の堅牢性を評価するために標準の論理推論データセットを拡張した「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という名前の 3 つの新しい論理推論データセットを開発しました。
それぞれについて、3 つのサブセットを作成します。最初のサブセットはランダムにシャッフルされた選択肢、2 番目の正しい選択肢は「他の選択肢はどれも正しくない」に置き換えられ、3 番目のサブセットはシャッフルと置換の組み合わせです。
これらのデータセットの実験では、これらの単純な拡張がモデルのパフォーマンスを大きく妨げることが示されています。
元の公開されているデータセットでは高いパフォーマンスが得られたにもかかわらず、これらの新しく構築されたデータセットではすべてのモデルのパフォーマンスが低いことがわかりました。
また、タスクのバリエーションをトレーニング セットに導入すると、元のデータセットと開発したデータセットの両方でモデルのパフォーマンスが大幅に向上することも実証します。
最後に、微調整とプロンプトにロジック駆動のデータ拡張を適用すると、判別モデルと生成モデルの両方で一般化が強化され、論理的推論を含むタスクの堅牢性を向上させる道が提供されることを示します。
ソース コードとデータは、https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning で公開されています。

要約(オリジナル)

Large language models (LLMs), such as LLaMA, Alpaca, Vicuna, GPT-3.5 and GPT-4, have advanced the performance of AI systems on various natural language processing tasks to human-like levels. However, their generalisation and robustness when performing logical reasoning has not been sufficiently assessed. To comprehensively evaluate this ability, we develop three new logical reasoning datasets named ‘ReClor-plus’, ‘LogiQA-plus’ and ‘LogiQAv2-plus’ that extend standard logical reasoning datasets to evaluate the robustness of the LLM’s reasoning. For each, we create three subsets: the first with randomly shuffled options, the second with the correct choices replaced by ‘none of the other options is correct’, and the third with a combination of shuffling and substitution. Experiments on these datasets show that these simple augmentations greatly hinder the models’ performance. Despite their high performance on the original publicly available datasets, we find that all models perform poorly on these newly constructed datasets. We also demonstrate that introducing task variations into the training set can markedly improve the model’s performance on both the original and our developed datasets. Finally, we show that applying logic-driven data augmentation for fine-tuning and prompting can enhance generalisation in both discriminative and generative models, offering a path to improving their robustness for tasks involving logical reasoning. Source code and data are made publicly available at https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning.

arxiv情報

著者 Qiming Bao,Gael Gendron,Alex Yuxuan Peng,Wanjun Zhong,Neset Tan,Yang Chen,Michael Witbrock,Jiamou Liu
発行日 2024-03-30 09:49:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク