STEPS: A Benchmark for Order Reasoning in Sequential Tasks

要約

人間のさまざまな活動は、調理、修理、製造など、自然文の一連のアクションに抽象化できます。このようなアクション シーケンスは実行順序に大きく依存しますが、アクション シーケンスの乱れはロボットや AI によるさらなるタスクの実行の失敗につながります。
エージェント。
したがって、逐次タスクにおける現在のニューラル モデルの順序推論能力を検証するために、STEPS という名前の挑戦的なベンチマークを提案します。
STEPS には 2 つのサブタスク設定が含まれており、それぞれ、レシピ内の特定の次のステップの合理性を判断することと、多肢選択式の質問から合理的なステップを選択することに焦点を当てています。
データの構築とタスクの定式化について説明し、重要な大規模言語モデル (LLM) のほとんどをベンチマークします。
実験結果は、1) 連続タスクにおけるアクション命令の常識的な推論は、LLM のゼロショット プロンプトまたは少数ショットのコンテキスト内学習によって解決するのが困難であることを示しています。
2) プロンプト方式は、STEPS でのチューニングベースの方式に比べて依然として大幅に遅れています。

要約(オリジナル)

Various human activities can be abstracted into a sequence of actions in natural text, i.e. cooking, repairing, manufacturing, etc. Such action sequences heavily depend on the executing order, while disorder in action sequences leads to failure of further task execution by robots or AI agents. Therefore, to verify the order reasoning capability of current neural models in sequential tasks, we propose a challenging benchmark , named STEPS. STEPS involves two subtask settings, focusing on determining the rationality of given next step in recipes and selecting the reasonable step from the multi-choice question, respectively. We describe the data construction and task formulations, and benchmark most of significant Large Language Models (LLMs). The experimental results demonstrate 1) The commonsense reasoning of action orders in sequential tasks are challenging to resolve via zero-shot prompting or few-shot in-context learning for LLMs; 2) Prompting method still significantly lags behind tuning-based method on STEPS.

arxiv情報

著者 Weizhi Wang,Hong Wang,Xifeng Yan
発行日 2023-06-07 13:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク