Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory

要約

複雑なタスクでの印象的なパフォーマンスにもかかわらず、現在の言語モデル(LMS)は通常、真空で動作します。各入力クエリは、以前の試みから洞察を保持することなく、個別に処理されます。
ここでは、ダイナミックチートシート(DC)を紹介します。これは、持続的で進化するメモリを持つブラックボックスLMに及ぶ軽量のフレームワークです。
DCは、同じソリューションとミスを繰り返し再発見または再配置するのではなく、モデルが蓄積された戦略、コードスニペット、および推論時間に一般的な問題解決洞察を保存および再利用できるようにします。
このテスト時間学習は、明示的なグラウンドトゥルースラベルや人間のフィードバックを必要とせずに、さまざまなタスクにわたってパフォーマンスを大幅に向上させます。
DCを活用して、Claude 3.5 Sonnetの精度は、Aime Math Examsでの質問を越えて代数の洞察を維持し始めた後、2倍以上になりました。
同様に、モデルがPythonベースのソリューションを発見して再利用した後、GAME 24のGAMEのGPT-4Oの成功率は10%から99%に増加しました。
方程式のバランスをとるなどの算術的なミスを起こしやすいタスクでは、DCはGPT-4OとClaudeが以前に検証されたコードをリコールすることでほぼ完璧な精度に達することができましたが、そのベースラインは約50%停滞しました。
算術的な課題を超えて、DCは知識を排除するタスクで顕著な精度の向上をもたらします。
Claudeは、GPQA-ダイヤモンドの9%の改善を達成し、MMLU-PROの問題で8%増加しました。
重要なことに、DCの記憶は自己キュレーションされており、トランスクリプト全体ではなく、簡潔で転送可能なスニペットに焦点を当てています。
Finetuningや静的検索方法とは異なり、DCは、基礎となるパラメーターを変更することなく、LMSの問題解決スキルをその場で適応させます。
全体として、私たちの調査結果は、DCを永続的な記憶でLMSを増強するための有望なアプローチとして提示し、孤立した推論イベントと人間の認知の特徴的な累積的で経験駆動型の学習学習との違いを埋めます。

要約(オリジナル)

Despite their impressive performance on complex tasks, current language models (LMs) typically operate in a vacuum: Each input query is processed separately, without retaining insights from previous attempts. Here, we present Dynamic Cheatsheet (DC), a lightweight framework that endows a black-box LM with a persistent, evolving memory. Rather than repeatedly re-discovering or re-committing the same solutions and mistakes, DC enables models to store and reuse accumulated strategies, code snippets, and general problem-solving insights at inference time. This test-time learning enhances performance substantially across a range of tasks without needing explicit ground-truth labels or human feedback. Leveraging DC, Claude 3.5 Sonnet’s accuracy more than doubled on AIME math exams once it began retaining algebraic insights across questions. Similarly, GPT-4o’s success rate on Game of 24 increased from 10% to 99% after the model discovered and reused a Python-based solution. In tasks prone to arithmetic mistakes, such as balancing equations, DC enabled GPT-4o and Claude to reach near-perfect accuracy by recalling previously validated code, whereas their baselines stagnated around 50%. Beyond arithmetic challenges, DC yields notable accuracy gains on knowledge-demanding tasks. Claude achieved a 9% improvement in GPQA-Diamond and an 8% boost on MMLU-Pro problems. Crucially, DC’s memory is self-curated, focusing on concise, transferable snippets rather than entire transcript. Unlike finetuning or static retrieval methods, DC adapts LMs’ problem-solving skills on the fly, without modifying their underlying parameters. Overall, our findings present DC as a promising approach for augmenting LMs with persistent memory, bridging the divide between isolated inference events and the cumulative, experience-driven learning characteristic of human cognition.

arxiv情報

著者 Mirac Suzgun,Mert Yuksekgonul,Federico Bianchi,Dan Jurafsky,James Zou
発行日 2025-04-10 17:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク