WikiChat: A Few-Shot LLM-Based Chatbot Grounded with Wikipedia

要約

大規模言語モデル (LLM) の最近の進歩にも関わらず、ユーザーは依然として応答で提供される情報を信頼できません。
LLM は、トレーニング後に発生したイベント (多くの場合、ユーザーにとって大きな関心のあるトピック) について正確に話すことができません。また、この論文で示したように、あまり人気のない (テール) トピックについて話す場合、幻覚に陥る傾向が非常に高くなります。
このペーパーでは、Wikipedia からのライブ情報に基づいた、数ショットの LLM ベースのチャットボットである WikiChat について説明します。
何度も実験を繰り返すことで、(1) LLM を使用して、Wikipedia に対して個別に検証された興味深い関連事実を提案し、(2) 追加の最新情報を取得し、(3) という情報検索に基づいたパイプラインを作成しました。
一貫性があり、時間を意識した魅力的な応答を作成します。
私たちは、LLM ベースのチャットボットの事実性と会話性を分析するための、人間と LLM の新しいハイブリッド評価方法論を提案します。
私たちは、最近の話題や最後の話題についての会話など、重要だがこれまで無視されてきた問題を評価することに重点を置いています。
私たちは、さまざまな会話トピックにわたって、強力に微調整された LLM ベースのベースラインに対して WikiChat を評価します。
WikiChat は、その主張の事実の正確さの点ですべてのベースラインを上回っており、先頭トピック、最近のトピック、末尾トピックで最大 12.1%、28.3%、32.7% 優れており、自然で、関連性があり、非現実的な情報を提供するという点では GPT-3.5 に匹敵します。
– 反復的で情報的な応答。

要約(オリジナル)

Despite recent advances in Large Language Models (LLMs), users still cannot trust the information provided in their responses. LLMs cannot speak accurately about events that occurred after their training, which are often topics of great interest to users, and, as we show in this paper, they are highly prone to hallucination when talking about less popular (tail) topics. This paper presents WikiChat, a few-shot LLM-based chatbot that is grounded with live information from Wikipedia. Through many iterations of experimentation, we have crafte a pipeline based on information retrieval that (1) uses LLMs to suggest interesting and relevant facts that are individually verified against Wikipedia, (2) retrieves additional up-to-date information, and (3) composes coherent and engaging time-aware responses. We propose a novel hybrid human-and-LLM evaluation methodology to analyze the factuality and conversationality of LLM-based chatbots. We focus on evaluating important but previously neglected issues such as conversing about recent and tail topics. We evaluate WikiChat against strong fine-tuned and LLM-based baselines across a diverse set of conversation topics. We find that WikiChat outperforms all baselines in terms of the factual accuracy of its claims, by up to 12.1%, 28.3% and 32.7% on head, recent and tail topics, while matching GPT-3.5 in terms of providing natural, relevant, non-repetitive and informational responses.

arxiv情報

著者 Sina J. Semnani,Violet Z. Yao,Heidi C. Zhang,Monica S. Lam
発行日 2023-05-23 17:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク