Analysis of the Reasoning with Redundant Information Provided Ability of Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、さまざまな自然言語処理タスク、特に汎用人工知能 (AGI) を実現するための基礎となる推論において、優れた機能が実証されました。
ただし、一般的に使用されるベンチマークは、現実世界のシナリオにおけるこれらのモデルの推論能力を完全にカプセル化していない可能性があります。
このギャップに対処するために、RRIP (Reasoning with Redundant Information Provided) と呼ばれる、新しい形式の質問応答 (QA) タスクが導入されています。
この研究では、冗長情報のさまざまな属性に焦点を当てたいくつかのバリアントを持つ小学校算数 8K (GSM-8K) データセットの修正バージョンを設計しました。
この調査では、2 つの人気のある LLM、LlaMA2-13B チャットと生成事前トレーニング済みトランスフォーマー 3.5 (GPT-3.5) を評価し、従来の QA タスクと RRIP タスクでのパフォーマンスを比較します。
調査結果によると、これらのモデルは標準の QA ベンチマークでは中程度の成功を収めましたが、RRIP タスクで評価するとパフォーマンスが著しく低下します。
この研究は、冗長情報の処理における現在の LLM の限界を強調するだけでなく、RRIP タスクのパフォーマンスを向上させるために、これらのモデルの今後のトレーニングではトレーニング データに冗長情報を組み込むことに重点を置く必要があることも示唆しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks, especially in reasoning, a cornerstone for achieving Artificial General Intelligence (AGI). However, commonly used benchmarks may not fully encapsulate the inferential abilities of these models in real-world scenarios. To address this gap, a new form of Question-Answering (QA) task, termed Reasoning with Redundant Information Provided (RRIP), is introduced. The study designed a modified version of the grade school math 8K (GSM-8K) dataset which has several variants focusing on different attributes of redundant information. This investigation evaluates two popular LLMs, LlaMA2-13B-chat and generative pre-trained transformer 3.5 (GPT-3.5), contrasting their performance on traditional QA tasks against the RRIP tasks. Findings indicate that while these models achieved moderate success on standard QA benchmarks, their performance notably declines when assessed on RRIP tasks. The study not only highlights the limitations of current LLMs in handling redundant information but also suggests that future training of these models should focus on incorporating redundant information into the training data to increase the performance on RRIP tasks.

arxiv情報

著者 Wenbei Xie
発行日 2023-10-06 06:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク