Hyper-multi-step: The Truth Behind Difficult Long-context Tasks

要約

広範なコンテキスト ウィンドウを特徴とするロングコンテキスト言語モデル (LCLM) の人気が高まっています。
一方、ロングコンテキストのベンチマークの多くは、最も先進的な LCLM ですら完了するのに苦労する困難なタスクを提示します。
しかし、さまざまな困難なロングコンテキストタスクの基礎となるソースはほとんど研究されていません。
このギャップを埋めるために、私たちは実験を行って、その難しさの主な原因が 2 つの基本的な問題にあることを示しました。1 つは複数の項目を同時に検索する必要がある「複数一致検索」、もう 1 つは検索基準内で論理的な判断が必要な「ロジックベースの検索」です。

これら 2 つの問題は、一見単純そうに見えますが、実際には LCLM の能力を超えています。これは、本質的にハイパーマルチステップ (解決するために多数のステップを必要とする) であることが証明されているためです。
この発見は、LLM がより高度なロングコンテキストのタスクに苦戦している理由を説明する可能性があり、LLM のソリューションを再考するためのより正確な視点を提供します。

要約(オリジナル)

Long-context language models (LCLM), characterized by their extensive context window, is becoming increasingly popular. Meanwhile, many long-context benchmarks present challenging tasks that even the most advanced LCLMs struggle to complete. However, the underlying sources of various challenging long-context tasks have seldom been studied. To bridge this gap, we conduct experiments to indicate their difficulty stems primarily from two basic issues: ‘multi-matching retrieval,’ which requires the simultaneous retrieval of multiple items, and ‘logic-based retrieval,’ which necessitates logical judgment within retrieval criteria. These two problems, while seemingly straightforward, actually exceed the capabilities of LCLMs because they are proven to be hyper-multi-step (demanding numerous steps to solve) in nature. This finding could explain why LLMs struggle with more advanced long-context tasks, providing a more accurate perspective for rethinking solutions for them.

arxiv情報

著者 Yijiong Yu,Ma Xiufa,Fang Jianwei,Zhi Xu,Su Guangyao,Wang Jiancheng,Yongfeng Huang,Zhixiao Qi,Wei Wang,Weifeng Liu,Ran Chen,Ji Pei
発行日 2024-11-15 07:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク