BotChat: Evaluating LLMs’ Capabilities of Having Multi-Turn Dialogues

要約

高品質のマルチターン対話を介して人間と対話することは、大規模言語モデル (LLM) の重要な機能です。
ただし、そのような能力を人間ベースで評価するには、集中的な手作業が必要です。
このレポートは、LLM ベースのアプローチを通じて、人間によるマルチターン チャットのための既存の大規模言語モデルの予備評価を提供します。
現実世界の人間の対話から始まり、最初の発話をChatSEEDとして保存します。
次に、LLM に、ChatSEED に基づいて完全なマルチターン ダイアログ (数十の発話) を発話ごとに生成するよう促します。
最後に、生成された対話を評価するための審査員として最先端の LLM (GPT-4 など) を採用します。
評価プロトコルが異なっても、実質的に同じ結論に達します。
GPT-4 は、人間のスタイルのマルチターン対話を印象的な品質で生成でき、他の製品よりも大幅に優れていることがわかりました。
識別者が GPT-4 で生成された対話と人間の対話を区別することは困難です。
対照的に、他の LLM は、指示に従う能力が低い、長い発話を生成する傾向がある、または一般的な能力が限られているため、満足のいく品質のマルチターン対話を生成するのに苦労しています。
すべてのデータとコードは https://github.com/open-compass/BotChat/ で提供され、LLM のマルチターン チャット機能を評価するための貴重なリソースとして機能することを願っています。

要約(オリジナル)

Interacting with human via high-quality multi-turn dialogues is a key feature of large language models (LLMs). However, human-based evaluation of such capability involves intensive manual labor. This report provides a preliminary evaluation of existing large language models for human-style multi-turn chatting, through an LLM-based approach. We start from real-world human dialogues and keep the very first utterances as the ChatSEED. Then we prompt LLMs to generate a full multi-turn dialogue (tens of utterances) based on the ChatSEED, utterance by utterance. Finally, we adopt state-of-the-art LLMs (GPT-4, \etc) as the judge to evaluate the generated dialogues. With different evaluation protocols, we come to substantially identical conclusions. We find that GPT-4 can generate human-style multi-turn dialogues with impressive quality, significantly outperforms its counterparts. It’s difficult for a discriminator to distinguish between GPT-4 generated dialogues and human dialogues. In contrast, other LLMs struggle to generate multi-turn dialogues of satisfactory quality due to poor instruction-following capability, tendency to generate lengthy utterances, or limited general capability. All data and codes will be provided in https://github.com/open-compass/BotChat/ and we hope they can serve as a valuable resource for evaluating multi-turn chatting capabilities of LLMs.

arxiv情報

著者 Haodong Duan,Jueqi Wei,Chonghua Wang,Hongwei Liu,Yixiao Fang,Songyang Zhang,Dahua Lin,Kai Chen
発行日 2023-10-20 16:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク