要約
長距離タスクには、長い入力にわたって推論が必要です。
現在のソリューションでは、大規模な計算予算、トレーニングデータ、モデルの重量アクセス、または複雑なタスク固有の設計が必要です。
プリズムを紹介します。これは、型式の階層スキーマで指定された構造化されたコンテキストメモリを維持しながら、チャンクのストリームとして情報を処理します。
プリズムは、長いコンテキストモデルよりも少なくとも4倍短いコンテキストを使用しながら、多様なタスクのベースラインを上回ります。
このアプローチはトークン効率が高く、簡潔な出力を生成し、キー価値(kV)キャッシュを効率的に活用して、代替の短いコンテキストメソッドと比較してコストを最大54%削減します。
プリズムは、エンコードコストを増やしたり犠牲にしたりすることなく、小さなチャンク(<500トークン)に縮小し、タスクの説明からスキーマを自動的に生成することにより、最小限の労力で新しいタスクに一般化します。
要約(オリジナル)
Long-range tasks demand reasoning over long inputs. Current solutions require large compute budgets, training data, model weight access, or complex task-specific designs. We introduce PRISM, which processes information as a stream of chunks while maintaining a structured in-context memory specified with a typed hierarchical schema. PRISM outperforms baselines on diverse tasks while using at least 4x shorter contexts than long-context models. This approach is token-efficient, producing concise outputs and efficiently leveraging key-value (KV) caches to reduce costs by up to 54% compared to alternative short-context methods. PRISM scales down to tiny chunks (<500 tokens) without increasing encoding costs or sacrificing quality, and generalizes to new tasks with minimal effort by automatically generating schemas from task descriptions.
arxiv情報
著者 | Dulhan Jayalath,James Bradley Wendt,Nicholas Monath,Sandeep Tata,Beliz Gunel |
発行日 | 2025-03-12 17:59:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google