Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

要約

大規模言語モデル (LLM) のコンテキスト制限が増加するにつれて、可能なアプリケーションとダウンストリーム機能の範囲が広がります。
現実世界の多くのタスクでは、意思決定は、ほとんど無関係な情報を含む、多くの場合異なるドキュメントのコレクションに散在する詳細に依存します。
ロングコンテキスト LLM は、伝統的にコストと時間がかかることが判明しているこの形式の複雑な情報の検索と推論に適していると思われます。
しかし、近年、より長いコンテキスト モデルの開発が急速に進んでいますが、LLM がコンテキストをどのように効果的に使用するかについての理解は追いついていません。
これに対処するために、コンテキスト ウィンドウを通じて情報のスレッドを追跡する能力など、17 の主要な LLM の能力を評価するように設計された一連の検索実験を実施します。
驚くべきことに、多くのモデルが驚くほどスレッドセーフであることがわかりました。つまり、パフォーマンスを大幅に低下させることなく、複数のスレッドを同時にフォローすることができます。
それでも、多くのモデルでは、有効なコンテキスト制限がサポートされているコンテキストの長さよりも大幅に短く、コンテキスト ウィンドウが大きくなるにつれて精度が低下することがわかりました。
私たちの調査では、さまざまなトークナイザーからのトークン数を直接比較すべきではないという重要な点も強調しています。トークン数は、書かれた文字の実質的に異なる数に対応していることがよくあります。
コードとロングコンテキストの実験データを公開します。

要約(オリジナル)

As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared — they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.

arxiv情報

著者 Jonathan Roberts,Kai Han,Samuel Albanie
発行日 2024-11-07 18:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク