要約
抽象化と推論コーパス(ARC-AGI)は、大規模な言語モデル(LLM)に大きな課題を提起し、抽象的な推論能力の制限を明らかにします。
この作業では、トレーニング、生成、およびスコアリングフェーズ全体でタスク固有のデータ増強を活用し、深さファースト検索アルゴリズムを採用して、多様で高強化可能性の候補ソリューションを生成します。
さらに、LLMを発電機としてだけでなく、得点者としても使用して、その出力確率を使用して最も有望なソリューションを選択します。
私たちの方法では、公開ARC-AGI評価セットで71.6%(286.5/400の解決されたタスク)のスコアを達成し、公開されているアプローチの中で最先端のパフォーマンスを実証します。
同時クローズドソース作業はより高いスコアを報告していますが、私たちの方法は、その透明性、再現性、および著しく低い推論コストによって区別され、容易に利用可能なハードウェアで平均してタスクごとに平均しています(NVIDIA 4090 GPUの場合は36ct/時間の価格を想定しています)。
要約(オリジナル)
The Abstraction and Reasoning Corpus (ARC-AGI) poses a significant challenge for large language models (LLMs), exposing limitations in their abstract reasoning abilities. In this work, we leverage task-specific data augmentations throughout the training, generation, and scoring phases, and employ a depth-first search algorithm to generate diverse, high-probability candidate solutions. Furthermore, we utilize the LLM not only as a generator but also as a scorer, using its output probabilities to select the most promising solutions. Our method achieves a score of 71.6% (286.5/400 solved tasks) on the public ARC-AGI evaluation set, demonstrating state-of-the-art performance among publicly available approaches. While concurrent closed-source work has reported higher scores, our method distinguishes itself through its transparency, reproducibility, and remarkably low inference cost, averaging only around 2ct per task on readily available hardware (we assume a price of 36ct/hour for a Nvidia 4090 GPU).
arxiv情報
著者 | Daniel Franzen,Jan Disselhoff,David Hartmann |
発行日 | 2025-06-11 15:19:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google