要約
対話システムによる会話中のユーザーエンゲージメントを向上させるには、個々の対話の応答と、対話全体を通しての一貫性、個性、共感などの対話の印象を改善する必要があります。
このような対話システムは大規模言語モデル (LLM) の助けを借りて急速に開発されていますが、AI フィードバックによる強化学習 (RLAIF) は、そのような対話の印象に合わせて LLM ベースの対話モデルを調整することに注目を集めています。
RLAIF では、別の LLM に基づく報酬モデルを使用して、ゼロショット/フューショット プロンプト手法を使用して LLM ベースの対話モデルのトレーニング信号を作成します。
ただし、LLM を促すだけで対話全体を評価するのは困難です。
本研究では、LLMの教師あり微調整(SFT)により、対話応答を評価するために、対話全体の印象に関する12の指標に対応する報酬モデルを用意した。
システムの印象を改善するために、報酬モデル信号をフィードバックとして使用して対話モデルを調整しました。
自動評価と人的評価の結果、対話印象に応じた報酬モデルを用いて対話モデルをチューニングすることで、個人指標の評価と対話応答の自然さが向上することがわかりました。
要約(オリジナル)
To improve user engagement during conversations with dialogue systems, we must improve individual dialogue responses and dialogue impressions such as consistency, personality, and empathy throughout the entire dialogue. While such dialogue systems have been developing rapidly with the help of large language models (LLMs), reinforcement learning from AI feedback (RLAIF) has attracted attention to align LLM-based dialogue models for such dialogue impressions. In RLAIF, a reward model based on another LLM is used to create a training signal for an LLM-based dialogue model using zero-shot/few-shot prompting techniques. However, evaluating an entire dialogue only by prompting LLMs is challenging. In this study, the supervised fine-tuning (SFT) of LLMs prepared reward models corresponding to 12 metrics related to the impression of the entire dialogue for evaluating dialogue responses. We tuned our dialogue models using the reward model signals as feedback to improve the impression of the system. The results of automatic and human evaluations showed that tuning the dialogue model using our reward model corresponding to dialogue impression improved the evaluation of individual metrics and the naturalness of the dialogue response.
arxiv情報
著者 | Kai Yoshida,Masahiro Mizukami,Seiya Kawano,Canasai Kruengkrai,Hiroaki Sugiyama,Koichiro Yoshino |
発行日 | 2025-01-22 08:14:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google