Language Model Agents Suffer from Compositional Generalization in Web Automation

要約

言語モデル エージェント (LMA) は、多段階の意思決定タスクにおける有望なパラダイムとして最近登場し、多くの場合人間や他の強化学習エージェントを上回ります。
その期待にもかかわらず、多くの場合タスクの組み合わせが必要となる実際のアプリケーションでのパフォーマンスはまだ十分に調査されていません。
この作業では、CompWoB と呼ばれる新しいベンチマークを導入します。これは、より現実的な仮定を反映した 50 の新しい構成 Web 自動化タスクです。
既存のプロンプト LMA (gpt-3.5-turbo または gpt-4) は基本タスクでは平均成功率 94.0% を達成しますが、構成タスクではパフォーマンスが 24.9% の成功率に低下することを示します。
一方、転送された LMA (基本タスクのみで微調整) では汎化ギャップが小さくなり、85.4% から 54.8% に低下しました。
タスク間のデータ分散のバランスを取ることで、MiniWoB では人間レベルのパフォーマンス (95.2%) を超え、CompWoB では最高のゼロショット パフォーマンス (61.5%) を達成する新しいモデル HTML-T5++ をトレーニングしました。
これらは、構成の一般化のための小規模な微調整および転送モデルの可能性を強調していますが、組み合わせの順序が変化するさまざまな命令構成の下では、そのパフォーマンスはさらに低下します。
最近の LMA の目覚ましい成功とは対照的に、私たちのベンチマークと詳細な分析では、現実世界の展開に向けたタスクの構成性に堅牢かつ一般化可能な LMA を構築する必要性が強調されています。

要約(オリジナル)

Language model agents (LMA) recently emerged as a promising paradigm on muti-step decision making tasks, often outperforming humans and other reinforcement learning agents. Despite the promise, their performance on real-world applications that often involve combinations of tasks is still underexplored. In this work, we introduce a new benchmark, called CompWoB — 50 new compositional web automation tasks reflecting more realistic assumptions. We show that while existing prompted LMAs (gpt-3.5-turbo or gpt-4) achieve 94.0% average success rate on base tasks, their performance degrades to 24.9% success rate on compositional tasks. On the other hand, transferred LMAs (finetuned only on base tasks) show less generalization gap, dropping from 85.4% to 54.8%. By balancing data distribution across tasks, we train a new model, HTML-T5++, that surpasses human-level performance (95.2%) on MiniWoB, and achieves the best zero-shot performance on CompWoB (61.5%). While these highlight the promise of small-scale finetuned and transferred models for compositional generalization, their performance further degrades under different instruction compositions changing combinational order. In contrast to the recent remarkable success of LMA, our benchmark and detailed analysis emphasize the necessity of building LMAs that are robust and generalizable to task compositionality for real-world deployment.

arxiv情報

著者 Hiroki Furuta,Yutaka Matsuo,Aleksandra Faust,Izzeddin Gur
発行日 2023-11-30 17:50:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク