MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation

要約

長期記憶は、チャットボットや対話システム (DS) が一貫性のある人間のような会話を作成するために重要であり、これは多数の開発された記憶拡張 DS (MADS) によって証明されています。
このような MADS の有効性を評価するために、検索精度や複雑さ (PPL) などの既存の一般的に使用される評価指標は、主にクエリ指向の事実性と言語品質評価に焦点を当てています。
ただし、これらの指標には実用的な価値がないことがよくあります。
また、DSでは人間らしい評価をするには評価次元が不十分です。
記憶想起パラダイムに関して、現在の評価スキームは受動的記憶想起のみを考慮しており、感情や環境など、感情的サポートのシナリオに不可欠な可能性のある豊富なトリガー要因を伴う多様な記憶想起を無視しています。
このギャップを埋めるために、認知科学と心理学の理論に基づいて、さまざまな記憶想起パラダイムをカバーする新しい記憶拡張対話ベンチマーク (MADail-Bench) を構築しました。
このベンチマークは、記憶検索と記憶認識の 2 つのタスクを、受動的および積極的な記憶想起データの両方を組み込んで個別に評価します。
記憶注入、感情サポート(ES)習熟度、親密度などの新たな評価基準を評価に導入し、生成された反応を総合的に評価します。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示しています。
広範なテストにより、記憶注入、ES熟練度、親密さの間の相関関係がさらに明らかになりました。

要約(オリジナル)

Long-term memory is important for chatbots and dialogue systems (DS) to create consistent and human-like conversations, evidenced by numerous developed memory-augmented DS (MADS). To evaluate the effectiveness of such MADS, existing commonly used evaluation metrics, like retrieval accuracy and perplexity (PPL), mainly focus on query-oriented factualness and language quality assessment. However, these metrics often lack practical value. Moreover, the evaluation dimensions are insufficient for human-like assessment in DS. Regarding memory-recalling paradigms, current evaluation schemes only consider passive memory retrieval while ignoring diverse memory recall with rich triggering factors, e.g., emotions and surroundings, which can be essential in emotional support scenarios. To bridge the gap, we construct a novel Memory-Augmented Dialogue Benchmark (MADail-Bench) covering various memory-recalling paradigms based on cognitive science and psychology theories. The benchmark assesses two tasks separately: memory retrieval and memory recognition with the incorporation of both passive and proactive memory recall data. We introduce new scoring criteria to the evaluation, including memory injection, emotion support (ES) proficiency, and intimacy, to comprehensively assess generated responses. Results from cutting-edge embedding models and large language models on this benchmark indicate the potential for further advancement. Extensive testing further reveals correlations between memory injection, ES proficiency, and intimacy.

arxiv情報

著者 Junqing He,Liang Zhu,Rui Wang,Xi Wang,Reza Haffari,Jiaxing Zhang
発行日 2024-10-23 17:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク