PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator

要約

Vicuna が証明しているように、クローズドソースの ChatGPT の比類のないパフォーマンスは、その民主化に向けた取り組みを引き起こし、実際のユーザーと ChatGPT の対話を活用することで顕著な進歩を遂げました。
しかし、人間の参加を伴う対話を収集する際の課題のため、Baize や UltraChat などの現在の取り組みは、指示に基づいて人間をシミュレートするロールプレイを実行する ChatGPT に依存しており、その結果、シードへの過度の依存、人間らしさの低下、トピックの多様性の制限、そして本物の表現の欠如が生じています。
マルチラウンドの会話ダイナミクス。
上記の問題に対処するために、人間の行動をより適切にシミュレートし、複数ターンの会話により人間らしい質問を組み込む利点を調査するパラダイムを提案します。
具体的には、人間と機械の本物の会話から抽出された人間の質問を学習目標として直接ターゲットにし、「Socratic」と呼ばれる新しいユーザー シミュレーターを提供します。
実験結果は、私たちの応答モデル「PlatoLM」が MT-Bench の LLaMA ベースの 7B モデルの中で SoTA パフォーマンスを達成していることを示しています。
私たちの調査結果はさらに、私たちの方法が非常に人間らしい質問パターンと豊富なトピック構造を導入しており、これによりマルチラウンドの会話において以前の研究よりも優れた応答モデルを教えることができることを示しています。

要約(オリジナル)

The unparalleled performance of closed-sourced ChatGPT has sparked efforts towards its democratization, with notable strides made by leveraging real user and ChatGPT dialogues, as evidenced by Vicuna. However, due to challenges in gathering dialogues involving human participation, current endeavors like Baize and UltraChat rely on ChatGPT conducting roleplay to simulate humans based on instructions, resulting in overdependence on seeds, diminished human-likeness, limited topic diversity, and an absence of genuine multi-round conversational dynamics. To address the above issues, we propose a paradigm to simulate human behavior better and explore the benefits of incorporating more human-like questions in multi-turn conversations. Specifically, we directly target human questions extracted from genuine human-machine conversations as a learning goal and provide a novel user simulator called `Socratic’. The experimental results show our response model, `PlatoLM’, achieves SoTA performance among LLaMA-based 7B models in MT-Bench. Our findings further demonstrate that our method introduces highly human-like questioning patterns and rich topic structures, which can teach the response model better than previous works in multi-round conversations.

arxiv情報

著者 Chuyi Kong,Yaxin Fan,Xiang Wan,Feng Jiang,Benyou Wang
発行日 2024-08-26 08:52:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク