Inducing Programmatic Skills for Agentic Tasks

要約

Webナビゲーションなどの一般的なデジタルタスクで成功するには、エージェントは製品の検索や旅行ルートの計画など、さまざまな専門的なタスクを実行する必要があります。
これらのタスクに取り組むために、エージェントは、Web環境とのやり取りを通じてオンラインでタスク固有のスキルを学習することで自分自身をブートストラップできます。
この作業では、プログラムがスキルの効果的な表現であることを実証します。
エージェントスキル誘導(ASI)を提案します。これにより、エージェントは、その場でプログラムベースのスキルを誘導、検証、および利用することで自分自身を適応させることができます。
WebArenaエージェントのベンチマークの評価から始めて、ASIが静的ベースラインエージェントとそのテキストスキルのカウンターパートを23.5%および11.3%上回ることを示しています。
ASIはまた、ベースライン上のステップの10.7-15.3%を減らし、原始的なアクション(クリック)を高レベルのスキル(たとえば、検索製品)に構成することにより、効率を向上させます。
次に、スケーリングされたWebアクティビティの下で効率的かつ正確なままであることにおけるASIの有効性を強調します。
最後に、Webサイト間を転送する際に誘導スキルの一般化可能性を調べ、ASIが一般的なスキルを効果的に再利用することができると同時に、互換性のないWebサイトの変更に互換性のないスキルを更新できることがわかります。

要約(オリジナル)

To succeed in common digital tasks such as web navigation, agents must carry out a variety of specialized tasks such as searching for products or planning a travel route. To tackle these tasks, agents can bootstrap themselves by learning task-specific skills online through interaction with the web environment. In this work, we demonstrate that programs are an effective representation for skills. We propose agent skill induction (ASI), which allows agents to adapt themselves by inducing, verifying, and utilizing program-based skills on the fly. We start with an evaluation on the WebArena agent benchmark and show that ASI outperforms the static baseline agent and its text-skill counterpart by 23.5% and 11.3% in success rate, mainly thanks to the programmatic verification guarantee during the induction phase. ASI also improves efficiency by reducing 10.7-15.3% of the steps over baselines, by composing primitive actions (e.g., click) into higher-level skills (e.g., search product). We then highlight the efficacy of ASI in remaining efficient and accurate under scaled-up web activities. Finally, we examine the generalizability of induced skills when transferring between websites, and find that ASI can effectively reuse common skills, while also updating incompatible skills to versatile website changes.

arxiv情報

著者 Zora Zhiruo Wang,Apurva Gandhi,Graham Neubig,Daniel Fried
発行日 2025-04-09 12:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク