Synatra: Turning Indirect Knowledge into Direct Demonstrations for Digital Agents at Scale

要約

LLM は、デジタル環境と対話し、特定の目的 (オンライン会議の手配など) を達成する自律エージェントとして機能できるようになりました。
しかし、デジタルタスクの大規模で直接的なデモンストレーションが不足していることもあり、精度は依然として満足のいくものとは程遠い。
人間から教師付きデータを取得するにはコストがかかり、探索や強化学習による自動データ収集は複雑な環境とコンテンツのセットアップに依存するため、さまざまなシナリオを包括的にカバーできないデータセットが生成されます。
一方で、人間が利用するために作成されたオンライン チュートリアルなど、タスクの完了を間接的に支援する可能性のある知識が豊富にあります。
この研究では、この間接的な知識を大規模な直接監督に効果的に変換するアプローチである Synatra を紹介します。
私たちはさまざまなタイプの間接知識を定義し、それを取得するために利用可能な情報源、直接的なデモンストレーションの構造をエンコードする方法、そして最後に間接的な知識を直接的なデモンストレーションに変換する方法を注意深く研究します。
このように合成的に作成された 100,000 個のデモンストレーションを使用して 7B CodeLlama を微調整し、結果のエージェントが 3 つの Web ベース タスク ベンチマーク Mind2Web、MiniWoB++、WebArena ですべての同等サイズのモデルを上回り、WebArena と Mind2Web で GPT-3.5 を上回ることを実証します。
さらに、合成デモンストレーションのコストは人間によるデモンストレーション (1 回あたり 0.031 ドル) のわずか 3% であることが判明していますが、合成デモンストレーションは、限られたドメインから同じ数の人間によるデモンストレーションを収集するよりも効果的である可能性があることを示しています。

要約(オリジナル)

LLMs can now act as autonomous agents that interact with digital environments and complete specific objectives (e.g., arranging an online meeting). However, accuracy is still far from satisfactory, partly due to a lack of large-scale, direct demonstrations for digital tasks. Obtaining supervised data from humans is costly, and automatic data collection through exploration or reinforcement learning relies on complex environmental and content setup, resulting in datasets that lack comprehensive coverage of various scenarios. On the other hand, there is abundant knowledge that may indirectly assist task completion, such as online tutorials that were created for human consumption. In this work, we present Synatra, an approach that effectively transforms this indirect knowledge into direct supervision at scale. We define different types of indirect knowledge, and carefully study the available sources to obtain it, methods to encode the structure of direct demonstrations, and finally methods to transform indirect knowledge into direct demonstrations. We use 100k such synthetically-created demonstrations to finetune a 7B CodeLlama, and demonstrate that the resulting agent surpasses all comparably sized models on three web-based task benchmarks Mind2Web, MiniWoB++ and WebArena, as well as surpassing GPT-3.5 on WebArena and Mind2Web. In addition, while synthetic demonstrations prove to be only 3% the cost of human demonstrations (at $0.031 each), we show that the synthetic demonstrations can be more effective than an identical number of human demonstrations collected from limited domains.

arxiv情報

著者 Tianyue Ou,Frank F. Xu,Aman Madaan,Jiarui Liu,Robert Lo,Abishek Sridhar,Sudipta Sengupta,Dan Roth,Graham Neubig,Shuyan Zhou
発行日 2024-11-27 16:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク