PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset

要約

最近、大規模な言語モデルが計画を立てたり実行したりできるかどうかについて、コミュニティ内で関心が高まっています。
しかし、先行研究のほとんどは LLM を使用して、言語の複雑さやドメインの多様性に欠ける単純化されたシナリオの高レベルの計画を生成しており、計画能力の分析が制限されています。
これらの設定では、評価方法 (事前定義されたアクション空間など)、アーキテクチャ上の選択 (生成モデルのみなど) が制約され、現実的な分析に不可欠な言語のニュアンスが見落とされます。
これに取り組むために、wikiHow をソースとする実践的な手順テキストの Q&A 形式を使用した、アブダクティブ推論タスク PARADISE を紹介します。
これには、中間ステップを除き、目標に直接関連付けられた警告およびヒントの推論タスクが含まれ、与えられた目標のみから計画の暗黙の知識を推論するモデルの能力をテストすることを目的としています。
微調整された言語モデルとゼロショット プロンプトを利用した私たちの実験では、ほとんどのシナリオにおいて、大規模な言語モデルよりもタスク固有の小規模モデルの有効性が明らかになりました。
進歩にもかかわらず、すべてのモデルは人間のパフォーマンスには達していません。
特に、私たちの分析では、キーワードが省略された場合のモデルの動作の変化、物理的および抽象的な目標に対する BERT ファミリと GPT-4 の苦闘、提案されたタスクが他の目に見えない手順タスクに貴重な事前知識を提供するなど、興味深い洞察が明らかになりました。
PARADISE データセットと関連リソースは、さらなる研究調査のために https://github.com/GGLAB-KU/paradise で公開されています。

要約(オリジナル)

Recently, there has been growing interest within the community regarding whether large language models are capable of planning or executing plans. However, most prior studies use LLMs to generate high-level plans for simplified scenarios lacking linguistic complexity and domain diversity, limiting analysis of their planning abilities. These setups constrain evaluation methods (e.g., predefined action space), architectural choices (e.g., only generative models), and overlook the linguistic nuances essential for realistic analysis. To tackle this, we present PARADISE, an abductive reasoning task using Q\&A format on practical procedural text sourced from wikiHow. It involves warning and tip inference tasks directly associated with goals, excluding intermediary steps, with the aim of testing the ability of the models to infer implicit knowledge of the plan solely from the given goal. Our experiments, utilizing fine-tuned language models and zero-shot prompting, reveal the effectiveness of task-specific small models over large language models in most scenarios. Despite advancements, all models fall short of human performance. Notably, our analysis uncovers intriguing insights, such as variations in model behavior with dropped keywords, struggles of BERT-family and GPT-4 with physical and abstract goals, and the proposed tasks offering valuable prior knowledge for other unseen procedural tasks. The PARADISE dataset and associated resources are publicly available for further research exploration with https://github.com/GGLAB-KU/paradise.

arxiv情報

著者 Arda Uzunoğlu,Abdalfatah Rashid Safa,Gözde Gül Şahin
発行日 2024-03-05 18:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク