要約
Large Language Model (LLM) の台頭により、特に API 呼び出しを通じてツールを利用する AI アシスタントの能力は著しく進歩しました。
この進歩により、より正確な評価方法が必要になりました。
既存の研究の多くは静的評価を採用しており、事前定義された対話履歴に基づいて AI アシスタントの API 呼び出しを評価しています。
ただし、実際のケースでは AI アシスタントが先行する人間の対話から API 呼び出しを生成できない可能性があるため、このような評価方法は誤解を招く可能性があります。
人間とマシンの直接対話というリソースを大量に消費する方法の代わりに、人間の関与なしでアシスタントの API 呼び出し機能を評価する自動動的評価 (AutoDE) を提案します。
私たちのフレームワークでは、人間とマシンの対話における本物の人間の会話パターンを厳密に反映するよう努めており、人間との整合性を確保するためのユーザー スクリプトを備えた LLM ベースのユーザー エージェントを使用しています。
実験結果は、AutoDE が静的評価では見落とされていたエラーを発見し、人間の評価とより密接に連携していることを強調しています。
作成したベンチマークを使用して 4 つの AI アシスタントをテストしたところ、従来の静的評価と比較して、私たちの方法は人間の評価をさらに反映しました。
要約(オリジナル)
With the rise of Large Language Models (LLMs), AI assistants’ ability to utilize tools, especially through API calls, has advanced notably. This progress has necessitated more accurate evaluation methods. Many existing studies adopt static evaluation, where they assess AI assistants’ API call based on pre-defined dialogue histories. However, such evaluation method can be misleading, as an AI assistant might fail in generating API calls from preceding human interaction in real cases. Instead of the resource-intensive method of direct human-machine interactions, we propose Automated Dynamic Evaluation (AutoDE) to assess an assistant’s API call capability without human involvement. In our framework, we endeavor to closely mirror genuine human conversation patterns in human-machine interactions, using a LLM-based user agent, equipped with a user script to ensure human alignment. Experimental results highlight that AutoDE uncovers errors overlooked by static evaluations, aligning more closely with human assessment. Testing four AI assistants using our crafted benchmark, our method further mirrored human evaluation compared to conventional static evaluations.
arxiv情報
著者 | Honglin Mu,Yang Xu,Yunlong Feng,Xiaofeng Han,Yitong Li,Yutai Hou,Wanxiang Che |
発行日 | 2024-03-27 15:22:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google