TaskLAMA: Probing the Complex Task Understanding of Language Models

要約

Structured Complex Task Decomposition (SCTD) は、現実世界の複雑なタスク (結婚式の計画など) を、タスクの達成に寄与する個々のステップにわたる有向非巡回グラフに分解し、それらの間の時間的な依存関係をエッジで指定する問題です。
SCTD は支援計画ツールの重要なコンポーネントであり、常識的な推論システムにとっては課題です。
大規模言語モデル (LLM) から抽出された知識を使用して、SCTD がどの程度正確に実行できるかを調査します。
私たちは、この問題に対して人間による注釈を付けた高品質のデータセットと、いくつかのベースラインに対して LLM のパフォーマンスを公平に評価するための新しいメトリクスを導入します。
私たちの実験では、LLM が複雑なタスクを効果的に個々のステップに分解でき、最良のベースラインと比較して 15% ~ 280% の相対的な改善が見られることが明らかになりました。
また、パフォーマンスをさらに向上させるための多くのアプローチを提案し、基本モデルと比較して 7% ~ 37% の相対的な向上を実現します。
しかし、LLM は依然としてペアごとの時間依存関係を予測するのに苦労していることがわかり、複雑なタスクに対する理解にギャップがあることが明らかになりました。

要約(オリジナル)

Structured Complex Task Decomposition (SCTD) is the problem of breaking down a complex real-world task (such as planning a wedding) into a directed acyclic graph over individual steps that contribute to achieving the task, with edges specifying temporal dependencies between them. SCTD is an important component of assistive planning tools, and a challenge for commonsense reasoning systems. We probe how accurately SCTD can be done with the knowledge extracted from Large Language Models (LLMs). We introduce a high-quality human-annotated dataset for this problem and novel metrics to fairly assess performance of LLMs against several baselines. Our experiments reveal that LLMs are able to decompose complex tasks into individual steps effectively, with a relative improvement of 15% to 280% over the best baseline. We also propose a number of approaches to further improve their performance, with a relative improvement of 7% to 37% over the base model. However, we find that LLMs still struggle to predict pairwise temporal dependencies, which reveals a gap in their understanding of complex tasks.

arxiv情報

著者 Quan Yuan,Mehran Kazemi,Xin Xu,Isaac Noble,Vaiva Imbrasaite,Deepak Ramachandran
発行日 2023-08-29 13:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク