Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback

要約

自然に発生するマルチモーダル信号も考慮しながら、グローバル (つまり、対話レベル) の報酬に基づいて LLM ベースの対話エージェントを調整するアプローチについて説明します。
高いレベルでは、私たちのアプローチ (GELI と呼ばれます) は、人間が提供するグローバル明示的 (GE) セッションレベルの報酬を分解することにより、ローカルのターンレベルの報酬モデルを学習します。ローカルインプリシット (LI) マルチモーダル報酬信号を使用してクロスモーダルに報酬を形成します。
分解ステップ。この分解された報酬モデルは、LLM ベースのダイアログ エージェントを改善する標準 RHLF パイプラインの一部として使用されます。私たちは、GELI アプローチのパフォーマンスを評価するために定量的および定性的なヒト研究を実行し、さまざまなレベルで一貫した改善を示していることを発見しました。
ベースライン手法と比較した会話メトリクス。

要約(オリジナル)

We describe an approach for aligning an LLM-based dialogue agent based on global (i.e., dialogue-level) rewards, while also taking into account naturally-occurring multimodal signals. At a high level, our approach (dubbed GELI) learns a local, turn-level reward model by decomposing the human-provided Global Explicit (GE) session-level reward, using Local Implicit (LI} multimodal reward signals to crossmodally shape the reward decomposition step. This decomposed reward model is then used as part of the standard RHLF pipeline improve an LLM-based dialog agent. We run quantitative and qualitative human studies to evaluate the performance of our GELI approach, and find that it shows consistent improvements across various conversational metrics compared to baseline methods.

arxiv情報

著者 Dong Won Lee,Hae Won Park,Yoon Kim,Cynthia Breazeal,Louis-Philippe Morency
発行日 2024-03-17 20:21:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク