Automated test generation to evaluate tool-augmented LLMs as conversational AI agents

要約

ツール拡張 LLM は、現実的な会話を行い、手順に従い、適切な機能を呼び出すことができる AI エージェントを作成するための有望なアプローチです。
ただし、考えられる会話は多様であるため、それらを評価することは困難であり、既存のデータセットは単一の対話と関数呼び出しのみに焦点を当てています。
LLM を会話型 AI エージェントとして評価するためのテスト生成パイプラインを紹介します。
私たちのフレームワークは LLM を使用して、ユーザー定義の手順に基づいた多様なテストを生成します。
そのために、中間グラフを使用して、LLM テスト ジェネレーターが入力手順に基づいていないコンテンツを幻覚する傾向を制限し、考えられる会話を幅広くカバーします。
さらに、カスタマー サポートにおける AI エージェントを評価するために手動でキュレーションされたデータセットである ALMITA を提案し、それを既存の LLM の評価に使用します。
私たちの結果は、ツールで拡張された LLM は単一の対話ではうまく機能するものの、完全な会話を処理するのに苦労することが多いことを示しています。
私たちは顧客サポートに重点を置いていますが、私たちの方法は一般的であり、さまざまなドメインの AI エージェントに対応できます。

要約(オリジナル)

Tool-augmented LLMs are a promising approach to create AI agents that can have realistic conversations, follow procedures, and call appropriate functions. However, evaluating them is challenging due to the diversity of possible conversations, and existing datasets focus only on single interactions and function-calling. We present a test generation pipeline to evaluate LLMs as conversational AI agents. Our framework uses LLMs to generate diverse tests grounded on user-defined procedures. For that, we use intermediate graphs to limit the LLM test generator’s tendency to hallucinate content that is not grounded on input procedures, and enforces high coverage of the possible conversations. Additionally, we put forward ALMITA, a manually curated dataset for evaluating AI agents in customer support, and use it to evaluate existing LLMs. Our results show that while tool-augmented LLMs perform well in single interactions, they often struggle to handle complete conversations. While our focus is on customer support, our method is general and capable of AI agents for different domains.

arxiv情報

著者 Samuel Arcadinho,David Aparicio,Mariana Almeida
発行日 2024-09-24 09:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク