Efficient and Accurate Memorable Conversation Model using DPO based on sLLM

要約

マルチセッションの対話システムでは、セッションの進行に応じてメモリを継続的に更新することが不可欠です。
単に記憶を蓄積するだけでは、入力文のサイズが限られているため、推論のための会話の内容に集中することが困難になる可能性があります。
したがって、会話履歴を継続的に反映するためにメモリを管理できる効率的かつ正確な会話モデルが必要です。
このペーパーでは、セッションの進行に応じてメモリを効率的に管理する会話モデルを紹介し、これをモデルに組み込んで、SFT、DPO、および SFT モデルを使用した DPO の 3 つの方法論を使用して会話履歴を正確に反映します。
DPO アルゴリズムを使用したモデルでは、メモリ精度が BERTScore の約 0.0591 向上し、メモリを反映する応答率も増加しました。
また、応答生成パフォーマンスは流暢性で約 4.292、一貫性で 3.935、一貫性で 2.896 向上しました。
このペーパーでは、モデル サイズが小さい場合でも、パラメーター サイズが 2 倍を超えるモデルよりも優れたパフォーマンスを生み出すトレーニング方法について説明します。
したがって、私たちのモデルは、精度だけでなくリソース利用の面でも効率性を示しています。

要約(オリジナル)

In multi-session dialog system, it is essential to continuously update the memory as the session progresses. Simply accumulating memory can make it difficult to focus on the content of the conversation for inference due to the limited input sentence size. Therefore, efficient and accurate conversation model that is capable of managing memory to reflect the conversation history continuously is necessary. This paper presents a conversation model that efficiently manages memory as sessions progress and incorporates this into the model to reflect the conversation history accurately with 3 methodologies: SFT, DPO and DPO with SFT model. Our model using DPO algorithm shows an improvement about 0.0591 of BERTScore in memory accuracy, and the rate of responses reflecting the memory increased as well. Also, response generation performance enhanced about 4.292 in fluency, 3.935 in coherence, and 2.896 in consistency. This paper describes a training method that yields better performance than models with more than twice the parameter size, even when the model size is smaller. Thus, our model demonstrates efficiency not only in terms of accuracy but also in resource utilization.

arxiv情報

著者 Youngkyung Seo,Yoonseok Heo,Jun-Seok Koh,Du-Seong Chang
発行日 2024-08-27 04:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク