Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions

要約

会話型質問応答 (CQA) システムは、ユーザーと対話することで効果的に情報を取得する対話型検索システムを作成することを目的としています。
人間と人間の会話を再現するために、既存の研究ではヒューマン アノテーターが質問者 (学生) と回答者 (教師) の役割を果たします。
その有効性にもかかわらず、人間によるアノテーションは時間がかかり、一貫性がなく、拡張性がないため、課題が存在します。
この問題に対処し、CQA シミュレーションにおける大規模言語モデル (LLM) の適用可能性を調査するために、教師と生徒の相互作用をシミュレートするためにゼロショット学習者 LLM を採用するシミュレーション フレームワークを提案します。
私たちのフレームワークには、特定のトピックに関して対話する 2 つの LLM が含まれており、最初の LLM は生徒として機能し、特定の検索トピックを探索するための質問を生成します。
2 番目の LLM は質問に答えることで教師の役割を果たし、指定されたトピックに関するテキストなどの追加情報が提供されます。
GPT-4 モデルをゼロショット プロンプトによって生徒と教師の両方を実装します。
CQA インタラクションをシミュレートする際の LLM の有効性を評価し、LLM と人間が生成した会話の間の差異を理解するために、さまざまな観点からシミュレートされたデータを評価します。
まず、自動評価と人間による評価の両方を通じて教師のパフォーマンスを評価します。
次に、LLM によって生成された質問と人間によって生成された質問の間の差異を分析および比較して、生徒の成績を評価します。
さらに、両方のデータセットで最先端の読解モデルをベンチマークすることにより、LLM のパフォーマンスを徹底的に調べるための広範な分析を実施しています。
私たちの結果は、教師 LLM がより正確で完全な傾向にあるより長い回答を生成することを明らかにしました。
学生 LLM は、特定のトピックのより多くの側面をカバーする、より多様な質問を生成します。

要約(オリジナル)

Conversational question-answering (CQA) systems aim to create interactive search systems that effectively retrieve information by interacting with users. To replicate human-to-human conversations, existing work uses human annotators to play the roles of the questioner (student) and the answerer (teacher). Despite its effectiveness, challenges exist as human annotation is time-consuming, inconsistent, and not scalable. To address this issue and investigate the applicability of large language models (LLMs) in CQA simulation, we propose a simulation framework that employs zero-shot learner LLMs for simulating teacher-student interactions. Our framework involves two LLMs interacting on a specific topic, with the first LLM acting as a student, generating questions to explore a given search topic. The second LLM plays the role of a teacher by answering questions and is equipped with additional information, including a text on the given topic. We implement both the student and teacher by zero-shot prompting the GPT-4 model. To assess the effectiveness of LLMs in simulating CQA interactions and understand the disparities between LLM- and human-generated conversations, we evaluate the simulated data from various perspectives. We begin by evaluating the teacher’s performance through both automatic and human assessment. Next, we evaluate the performance of the student, analyzing and comparing the disparities between questions generated by the LLM and those generated by humans. Furthermore, we conduct extensive analyses to thoroughly examine the LLM performance by benchmarking state-of-the-art reading comprehension models on both datasets. Our results reveal that the teacher LLM generates lengthier answers that tend to be more accurate and complete. The student LLM generates more diverse questions, covering more aspects of a given topic.

arxiv情報

著者 Zahra Abbasiantaeb,Yifei Yuan,Evangelos Kanoulas,Mohammad Aliannejadi
発行日 2023-12-05 17:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク