The CLRS-Text Algorithmic Reasoning Language Benchmark

要約

言語モデル (LM) から推論機能を引き出すことは、インテリジェント システムの構築に向けた重要な方向性です。
推論に特化した最近の研究のほとんどは、特定のスキルのみを評価するために特別に構築された、手続き的に生成された合成ベンチマークにおける分布外のパフォーマンスに焦点を当てています。
この傾向により、結果を出版物間で転用することが困難になり、進歩が遅れています。
3 年前、CLRS ベンチマークの登場により、ニューラル アルゴリズム推論の分野で同様の問題が特定され、修正されました。
CLRS は、教科書『アルゴリズム入門』に掲載されている古典的なアルゴリズムのグラフ実行トレースで構成されるデータセット ジェネレーターです。
これに触発されて、私たちは、これらのアルゴリズム トレースのテキスト バージョンである CLRS-Text を提案します。
CLRS-Text は、箱から出してすぐに、任意の望ましい入力分布にわたって 30 の多様で困難なアルゴリズム タスクのトレース データを手続き的に生成できると同時に、ベンチマークで追加のアルゴリズム タスクを作成できる標準パイプラインを提供します。
私たちは、このベンチマークでジェネラリストの実行者としてさまざまな LM を微調整および評価し、これまでの研究を検証し、LM 推論コミュニティにとって斬新で興味深い課題を明らかにしました。
コードは https://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_text で入手できます。

要約(オリジナル)

Eliciting reasoning capabilities from language models (LMs) is a critical direction on the path towards building intelligent systems. Most recent studies dedicated to reasoning focus on out-of-distribution performance on procedurally-generated synthetic benchmarks, bespoke-built to evaluate specific skills only. This trend makes results hard to transfer across publications, slowing down progress. Three years ago, a similar issue was identified and rectified in the field of neural algorithmic reasoning, with the advent of the CLRS benchmark. CLRS is a dataset generator comprising graph execution traces of classical algorithms from the Introduction to Algorithms textbook. Inspired by this, we propose CLRS-Text — a textual version of these algorithmic traces. Out of the box, CLRS-Text is capable of procedurally generating trace data for thirty diverse, challenging algorithmic tasks across any desirable input distribution, while offering a standard pipeline in which any additional algorithmic tasks may be created in the benchmark. We fine-tune and evaluate various LMs as generalist executors on this benchmark, validating prior work and revealing a novel, interesting challenge for the LM reasoning community. Our code is available at https://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_text.

arxiv情報

著者 Larisa Markeeva,Sean McLeish,Borja Ibarz,Wilfried Bounsi,Olga Kozlova,Alex Vitvitskyi,Charles Blundell,Tom Goldstein,Avi Schwarzschild,Petar Veličković
発行日 2024-06-06 16:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DS, cs.LG, stat.ML パーマリンク