Rewarding Chatbots for Real-World Engagement with Millions of Users

要約

タイトル:数百万のユーザーとの現実世界のエンゲージメントに報いるチャットボット

要約:
– 大規模なプリトレーニングされた言語モデルの登場により、チャットボットの使用が増えている。
– しかし、これらのチャットボットは言語能力と流暢さを示す一方で、魅力的ではなく、ユーザーを維持することができないことがある。
– 本研究は、ユーザーのエンゲージメントを優先する社会的チャットボットの開発を調査し、高いエンゲージメントを持つチャットボットを効率的に開発するために人間のフィードバックを使用することを特に検討する。
– 提案されたアプローチでは、ユーザーの相互作用から収集された自動疑似ラベルを使用して報酬モデルをトレーニングし、推論時にチャットボットモデルによって生成されたスコアの低い応答を拒否するために使用できる。
– デプロイされたチャットボットのエンゲージメントレベルを測定するための直感的な評価メトリックとして、平均会話長(MCL)などが導入されている。
– Chai Researchプラットフォームの毎日の新規チャットボットユーザーグループでのA/Bテストにより、このアプローチによりMCLが最大70%増加し、GPT-J 6Bモデルのユーザー維持率が30%以上向上することが示された。
– 将来の研究は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザー会話を使用して言語モデルと報酬モデルを交互にファインチューニングすることを目的としている。

要約(オリジナル)

The emergence of pretrained large language models has led to the deployment of a range of social chatbots for chitchat. Although these chatbots demonstrate language ability and fluency, they are not guaranteed to be engaging and can struggle to retain users. This work investigates the development of social chatbots that prioritize user engagement to enhance retention, specifically examining the use of human feedback to efficiently develop highly engaging chatbots. The proposed approach uses automatic pseudo-labels collected from user interactions to train a reward model that can be used to reject low-scoring sample responses generated by the chatbot model at inference time. Intuitive evaluation metrics, such as mean conversation length (MCL), are introduced as proxies to measure the level of engagement of deployed chatbots. A/B testing on groups of 10,000 new daily chatbot users on the Chai Research platform shows that this approach increases the MCL by up to 70%, which translates to a more than 30% increase in user retention for a GPT-J 6B model. Future work aims to use the reward model to realise a data fly-wheel, where the latest user conversations can be used to alternately fine-tune the language model and the reward model.

arxiv情報

著者 Robert Irvine,Douglas Boubert,Vyas Raina,Adian Liusie,Ziyi Zhu,Vineet Mudupalli,Aliaksei Korshuk,Zongyi Liu,Fritz Cremer,Valentin Assassi,Christie-Carol Beauchamp,Xiaoding Lu,Thomas Rialan,William Beauchamp
発行日 2023-03-30 18:28:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク