XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model

要約

ここ数年、当社は中国で最も影響力のあるモバイル決済アプリケーションの 1 つである WeChat Pay のユーザー受け入れテスト (UAT) プロセスの自動化に専念してきました。
XUATというシステムがこの目的のために開発されました。
ただし、現在のシステムには、テスト スクリプトの生成など、人間の労力がかかる段階がまだあります。
したがって、このホワイト ペーパーでは、現在のシステム、特にテスト スクリプトの生成段階の自動化レベルを高める方法に焦点を当てます。
最近の顕著な成功により、大規模言語モデル (LLM) は人間のような知能を達成する上で大きな可能性を示しており、人間のような意思決定能力を獲得する自律エージェントとして LLM を採用する研究分野が成長しています。
これらの研究に触発されて、私たちは自動 UAT 用に、LLM を利用した XUAT-Copilot という名前のマルチエージェント協調システムを提案します。
提案されたシステムは主に、アクション計画、状態チェック、パラメータ選択をそれぞれ担当する 3 つの LLM ベースのエージェントと、状態検知とケース書き換えのための 2 つの追加モジュールで構成されます。
エージェントはテストデバイスと対話し、人間のような意思決定を行い、協力してアクションコマンドを生成します。
提案されたマルチエージェント システムは、実験研究において人間のテスターに​​近い有効性を達成し、シングル エージェント アーキテクチャと比較して Pass@1 の精度が大幅に向上しました。
さらに重要なことは、提案されたシステムが WeChat Pay モバイル アプリの正式なテスト環境で起動されたことです。これにより、日常の開発作業でかなりの人的資源が節約されます。

要約(オリジナル)

In past years, we have been dedicated to automating user acceptance testing (UAT) process of WeChat Pay, one of the most influential mobile payment applications in China. A system titled XUAT has been developed for this purpose. However, there is still a human-labor-intensive stage, i.e, test scripts generation, in the current system. Therefore, in this paper, we concentrate on methods of boosting the automation level of the current system, particularly the stage of test scripts generation. With recent notable successes, large language models (LLMs) demonstrate significant potential in attaining human-like intelligence and there has been a growing research area that employs LLMs as autonomous agents to obtain human-like decision-making capabilities. Inspired by these works, we propose an LLM-powered multi-agent collaborative system, named XUAT-Copilot, for automated UAT. The proposed system mainly consists of three LLM-based agents responsible for action planning, state checking and parameter selecting, respectively, and two additional modules for state sensing and case rewriting. The agents interact with testing device, make human-like decision and generate action command in a collaborative way. The proposed multi-agent system achieves a close effectiveness to human testers in our experimental studies and gains a significant improvement of Pass@1 accuracy compared with single-agent architecture. More importantly, the proposed system has launched in the formal testing environment of WeChat Pay mobile app, which saves a considerable amount of manpower in the daily development work.

arxiv情報

著者 Zhitao Wang,Wei Wang,Zirao Li,Long Wang,Can Yi,Xinjie Xu,Luyang Cao,Hanjing Su,Shouzhi Chen,Jun Zhou
発行日 2024-01-10 12:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク