Synth-Empathy: Towards High-Quality Synthetic Empathy Data

要約

近年、大規模言語モデル (LLM) の急速な進歩に伴い、優れた共感的応答能力を実現することが重要な前提条件となっています。
その結果、共感的なデータセットの管理と理解の重要性がますます高まっています。
ただし、共感データは通常、人間によってラベル付けされるため、データセットが不十分になり、人間の労力が無駄になります。
この研究では、低品質のデータを破棄しながら高品質の共感データを自動的に生成する、LLM ベースのデータ生成および品質と多様性の選択パイプラインである Synth-Empathy を紹介します。
共感性の低いモデルから生成されたデータを使用することで、共感性の応答パフォーマンスをさらに向上させ、複数のベンチマークにわたって最先端 (SoTA) の結果を達成することができます。
さらに、私たちのモデルはさまざまな人間による評価ベンチマークで SoTA のパフォーマンスを達成し、現実世界のアプリケーションにおけるその有効性と堅牢性を実証しています。
さらに、データの量と質の間のトレードオフを示し、共感的なデータの生成と選択についての洞察を提供します。

要約(オリジナル)

In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capabilities has become a crucial prerequisite. Consequently, managing and understanding empathetic datasets have gained increasing significance. However, empathetic data are typically human-labeled, leading to insufficient datasets and wasted human labor. In this work, we present Synth-Empathy, an LLM-based data generation and quality and diversity selection pipeline that automatically generates high-quality empathetic data while discarding low-quality data. With the data generated from a low empathetic model, we are able to further improve empathetic response performance and achieve state-of-the-art (SoTA) results across multiple benchmarks. Moreover, our model achieves SoTA performance on various human evaluation benchmarks, demonstrating its effectiveness and robustness in real-world applications. Furthermore, we show the trade-off between data quantity and quality, providing insights into empathetic data generation and selection.

arxiv情報

著者 Hao Liang,Linzhuang Sun,Jingxuan Wei,Xijie Huang,Linkun Sun,Bihui Yu,Conghui He,Wentao Zhang
発行日 2024-07-31 15:12:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク