Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data

要約

近年、大規模言語モデル (LLM) の急速な進歩に伴い、優れた共感的応答能力を実現することが重要な前提条件となっています。
その結果、大規模なビデオ データセットの管理と理解の重要性が増しています。
ただし、共感データは通常、品質の選択を行わずにトレーニングされるため、データの使用が非効率になり、計算リソースが無駄になります。
さらに、生データを使用すると、共感的な対話のパフォーマンスが低下する可能性があります。
この研究では、低品質のデータを破棄しながら感性と合理性のデータを自動的に選択する、感性と合理性のスコアに基づくデータ選択アルゴリズムである Efficient-Empathy を紹介します。
感性データ (全データセットの 59%) のみを使用して、トレーニング済みの感性モデルは最先端 (SoTA) のパフォーマンスを効率的に達成します。
さらに、複数のデータ選択ハイパーパラメータを使用して、感度モデルは SoTA のパフォーマンスを実証し、私たちの方法の堅牢性を示しています。
感性と合理性のデータを MoE 構造と統合することで、さらに高いパフォーマンスを達成し、効率的共感アルゴリズムの有効性を実証しました。

要約(オリジナル)

In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capability has become a crucial prerequisite. Consequently, managing and understanding large-scale video datasets has gained increasing importance. However, empathetic data are typically trained without any quality selection, leading to inefficient data usage and wasted computational resources. Additionally, using raw data can result in low performance in empathetic dialogues. In this work, we present Efficient-Empathy, a sensibility and rationality score-based data selection algorithm that automatically selects sensibility and rationality data while discarding low-quality data. With only the sensibility data (59% of the full dataset), our trained sensibility model efficiently achieves state-of-the-art (SoTA) performance. Furthermore, with multiple data selection hyperparameters, the sensibility model demonstrates SoTA performance, showcasing the robustness of our method. By integrating sensibility and rationality data with a MoE structure, we achieve even higher performance, demonstrating the effectiveness of our Efficient-Empathy algorithm.

arxiv情報

著者 Linzhuang Sun,Hao Liang,Jingxuan Wei,Linkun Sun,Bihui Yu,Bin Cui,Wentao Zhang
発行日 2024-07-09 14:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク