要約
大規模言語モデル (LLM) の最近の進歩により、LLM に基づいてワークフロー オーケストレーション手順を自動化することにより、プロセス オートメーションにおけるロボティック プロセス オートメーションからエージェントティック プロセス オートメーションへの革命的なパラダイム シフトが推進されました。
ただし、既存の LLM (先進的な OpenAI GPT-4o であっても) は、ワークフロー オーケストレーションで満足のいく機能を達成することに限定されています。
この制限に対処するために、ワークフロー オーケストレーションにおける LLM の機能を強化するために精巧に設計されたデータ中心のフレームワークである WorkflowLLM を紹介します。
まず、28 カテゴリにわたる 83 のアプリケーションからの 1,503 の API をカバーする 106,763 のサンプルを含む大規模な微調整データセット WorkflowBench を構築します。
具体的には、構築プロセスは 3 つのフェーズに分けることができます。 (1) データ収集: Apple ショートカットと RoutineHub から実際のワークフロー データを収集し、それらを Python スタイルのコードに転写します。
さらに、ChatGPT を通じて生成された階層的思考を彼らに提供します。
(2) クエリ拡張: ワークフローの多様性と複雑さを強化するために、ChatGPT にさらに多くのタスク クエリを生成するよう促します。
(3) ワークフロー生成: 収集されたデータでトレーニングされたアノテーター モデルを活用して、合成されたクエリのワークフローを生成します。
最後に、品質確認に合格した合成サンプルと収集したサンプルをマージして、WorkflowBench を取得します。
WorkflowBench をベースに Llama-3.1-8B を微調整して WorkflowLlama を取得します。
私たちの実験では、WorkflowLlama が複雑なワークフローを調整する強力な能力を実証しながら、これまで見たことのない API で顕著な汎化パフォーマンスを達成していることを示しています。
さらに、WorkflowBench は、配布外のタスク計画データセットである T-Eval に対して堅牢なゼロショット汎化機能を示します。
データとコードは https://github.com/OpenBMB/WorkflowLLM で入手できます。
要約(オリジナル)
Recent advancements in large language models (LLMs) have driven a revolutionary paradigm shift in process automation from Robotic Process Automation to Agentic Process Automation by automating the workflow orchestration procedure based on LLMs. However, existing LLMs (even the advanced OpenAI GPT-4o) are confined to achieving satisfactory capability in workflow orchestration. To address this limitation, we present WorkflowLLM, a data-centric framework elaborately designed to enhance the capability of LLMs in workflow orchestration. It first constructs a large-scale fine-tuning dataset WorkflowBench with 106,763 samples, covering 1,503 APIs from 83 applications across 28 categories. Specifically, the construction process can be divided into three phases: (1) Data Collection: we collect real-world workflow data from Apple Shortcuts and RoutineHub, transcribing them into Python-style code. We further equip them with generated hierarchical thought via ChatGPT. (2) Query Expansion: we prompt ChatGPT to generate more task queries to enrich the diversity and complexity of workflows. (3) Workflow Generation: we leverage an annotator model trained on collected data to generate workflows for synthesized queries. Finally, we merge the synthetic samples that pass quality confirmation with the collected samples to obtain the WorkflowBench. Based on WorkflowBench, we fine-tune Llama-3.1-8B to obtain WorkflowLlama. Our experiments show that WorkflowLlama demonstrates a strong capacity to orchestrate complex workflows, while also achieving notable generalization performance on previously unseen APIs. Additionally, WorkflowBench exhibits robust zero-shot generalization capabilities on an out-of-distribution task planning dataset, T-Eval. Our data and code are available at https://github.com/OpenBMB/WorkflowLLM.
arxiv情報
| 著者 | Shengda Fan,Xin Cong,Yuepeng Fu,Zhong Zhang,Shuyan Zhang,Yuanwei Liu,Yesai Wu,Yankai Lin,Zhiyuan Liu,Maosong Sun |
| 発行日 | 2024-11-08 09:58:02+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google