GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing

要約

大規模な言語モデル(LLM)は、指示のフォローや質問への回答などの人間のガイド付き会話で成功していますが、LLMガイド付き会話の可能性 – LLMが談話を指示し、会話の目標を操作します。
この研究では、最初にLLMガイド付き会話を3つの基本的なコンポーネントに特徴付けます。(i)目標ナビゲーション。
(ii)コンテキスト管理。
(iii)共感的な関与、およびguidellmをインストールとして提案します。
次に、LLM誘導会話の評価のためにインタビュー環境を実装します。
具体的には、包括的なインタビュー評価のためにこの環境にさまざまなトピックが関与しており、各チャットボット評価のインタビュー中に発言、184kトークン、および200を超えるイベントが約1.4kターン、184Kトークン、および200を超えるイベントが発生します。
Guidellmを、GPT-4OやLlama-3-70B-Instructなどの最先端のLLMと比較して、インタビューの品質と自伝生成品質の観点から比較します。
自動評価のために、複数の自伝からユーザープロキシを導き出し、LLM-A-A-A-Judgeを使用してLLMの動作を獲得します。
さらに、45人の人間の参加者を採用してGuidellmやベースラインとチャットすることにより、人間が関与した実験を実施します。
次に、会話と自伝の質に関する人間のフィードバック、好み、評価を収集します。
実験結果は、Guidellmが自動評価でベースラインLLMを大幅に上回り、人間の評価で一貫した主要なパフォーマンスを達成することを示しています。

要約(オリジナル)

Although Large Language Models (LLMs) succeed in human-guided conversations such as instruction following and question answering, the potential of LLM-guided conversations-where LLMs direct the discourse and steer the conversation’s objectives-remains under-explored. In this study, we first characterize LLM-guided conversation into three fundamental components: (i) Goal Navigation; (ii) Context Management; (iii) Empathetic Engagement, and propose GuideLLM as an installation. We then implement an interviewing environment for the evaluation of LLM-guided conversation. Specifically, various topics are involved in this environment for comprehensive interviewing evaluation, resulting in around 1.4k turns of utterances, 184k tokens, and over 200 events mentioned during the interviewing for each chatbot evaluation. We compare GuideLLM with 6 state-of-the-art LLMs such as GPT-4o and Llama-3-70b-Instruct, from the perspective of interviewing quality, and autobiography generation quality. For automatic evaluation, we derive user proxies from multiple autobiographies and employ LLM-as-a-judge to score LLM behaviors. We further conduct a human-involved experiment by employing 45 human participants to chat with GuideLLM and baselines. We then collect human feedback, preferences, and ratings regarding the qualities of conversation and autobiography. Experimental results indicate that GuideLLM significantly outperforms baseline LLMs in automatic evaluation and achieves consistent leading performances in human ratings.

arxiv情報

著者 Jinhao Duan,Xinyu Zhao,Zhuoxuan Zhang,Eunhye Ko,Lily Boddy,Chenan Wang,Tianhao Li,Alexander Rasgon,Junyuan Hong,Min Kyung Lee,Chenxi Yuan,Qi Long,Ying Ding,Tianlong Chen,Kaidi Xu
発行日 2025-02-10 14:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク