PRISM: Efficient Long-Range Reasoning With Short-Context LLMs

要約

長距離タスクには、長い入力にわたって推論が必要です。
現在のソリューションでは、大規模な計算予算、トレーニングデータ、モデルの重量アクセス、または複雑なタスク固有の設計が必要です。
プリズムを紹介します。これは、型式の階層スキーマで指定された構造化されたコンテキストメモリを維持しながら、チャンクのストリームとして情報を処理します。
プリズムは、長いコンテキストモデルよりも少なくとも4倍短いコンテキストを使用しながら、多様なタスクのベースラインを上回ります。
このアプローチはトークン効率が高く、簡潔な出力を生成し、キー価値(kV)キャッシュを効率的に活用して、代替の短いコンテキストメソッドと比較してコストを最大54%削減します。
プリズムは、エンコードコストを増やしたり犠牲にしたりすることなく、小さなチャンク(<500トークン)に縮小し、タスクの説明からスキーマを自動的に生成することにより、最小限の労力で新しいタスクに一般化します。

要約(オリジナル)

Long-range tasks demand reasoning over long inputs. Current solutions require large compute budgets, training data, model weight access, or complex task-specific designs. We introduce PRISM, which processes information as a stream of chunks while maintaining a structured in-context memory specified with a typed hierarchical schema. PRISM outperforms baselines on diverse tasks while using at least 4x shorter contexts than long-context models. This approach is token-efficient, producing concise outputs and efficiently leveraging key-value (KV) caches to reduce costs by up to 54% compared to alternative short-context methods. PRISM scales down to tiny chunks (<500 tokens) without increasing encoding costs or sacrificing quality, and generalizes to new tasks with minimal effort by automatically generating schemas from task descriptions.

arxiv情報

著者 Dulhan Jayalath,James Bradley Wendt,Nicholas Monath,Sandeep Tata,Beliz Gunel
発行日 2025-03-12 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク