Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

要約

このペーパーでは、入力長の拡張が大規模言語モデル (LLM) の機能に与える影響について調査します。
最近の LLM の進歩にもかかわらず、さまざまな入力長にわたる LLM のパフォーマンスの一貫性はよく理解されていません。
私たちは、特に入力長の影響を評価するために設計された新しい QA 推論フレームワークを導入することで、この側面を調査します。
同じサンプルの複数のバージョンを使用して、入力長の影響を分離します。各バージョンは、異なる長さ、タイプ、位置のパディングで拡張されています。
私たちの調査結果は、LLM の技術的な最大値よりもはるかに短い入力長では、LLM の推論パフォーマンスが著しく低下することを示しています。
強度は異なりますが、劣化傾向がデータセットのすべてのバージョンに現れることを示します。
さらに、私たちの研究では、次の単語予測の従来のメトリクスが、推論データセット上の LLM のパフォーマンスと負の相関があることが明らかになりました。
私たちは結果を分析し、将来の研究の有用なガイドとして機能する故障モードを特定し、LLM で観察された制限に対処するための戦略を提供できる可能性があります。

要約(オリジナル)

This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs’ reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that the traditional metric of next word prediction correlates negatively with performance of LLMs’ on our reasoning dataset. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.

arxiv情報

著者 Mosh Levy,Alon Jacoby,Yoav Goldberg
発行日 2024-07-10 17:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク