TALES: Text Adventure Learning Environment Suite

要約

推論は、大規模な言語モデル(LLM)が世界と対話できるようにするための不可欠なスキルです。
タスクがより複雑になるにつれて、彼らは順次意思決定のためにますます洗練された多様な推論能力を要求し、次の最高のアクションを決定するために、コンテキスト履歴に関する構造化された推論を必要とします。
Talesを紹介します。Talesは、多様な推論能力に挑戦し、評価するために設計された、合成および人間が作成したテキストアドベンチャーゲームの多様なコレクションです。
さまざまなLLMS、オープンウェイトおよびクローズウェイトで結果を提示し、上部のパフォーマンスモデルで定性分析を実行します。
合成ゲームでの印象的なショーにもかかわらず、トップのLLM主導のエージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できませんでした。
実験のコードと視覚化は、https://microsoft.github.io/tale-suiteで見つけることができます。

要約(オリジナル)

Reasoning is an essential skill to enable Large Language Models (LLMs) to interact with the world. As tasks become more complex, they demand increasingly sophisticated and diverse reasoning capabilities for sequential decision-making, requiring structured reasoning over the context history to determine the next best action. We introduce TALES, a diverse collection of synthetic and human-written text-adventure games designed to challenge and evaluate diverse reasoning capabilities. We present results over a range of LLMs, open- and closed-weights, performing a qualitative analysis on the top performing models. Despite an impressive showing on synthetic games, even the top LLM-driven agents fail to achieve 15% on games designed for human enjoyment. Code and visualization of the experiments can be found at https://microsoft.github.io/tale-suite.

arxiv情報

著者 Christopher Zhang Cui,Xingdi Yuan,Ziang Xiao,Prithviraj Ammanabrolu,Marc-Alexandre Côté
発行日 2025-04-24 02:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク