Leveraging Implicit Feedback from Deployment Data in Dialogue

要約

私たちは、追加のアノテーションを使用せずに、ユーザーとデプロイされたモデル間の自然な対話から学習することにより、社会的会話エージェントを改善することを研究しています。
機械生成された発話の品質を暗黙的に測定するために、収集された対話エピソードにおけるユーザーの応答の長さ、センチメント、将来の人間の発話の反応などのシグナルを活用します。
私たちの実験では、BlenderBot から公開されている展開データを使用します (Xu et al., 2023)。
人間による評価では、新しいモデルのベースライン応答に対する改善が示されています。
ただし、一部のプロキシ信号は、望ましくない特性を持つさらに多くの世代を引き起こす可能性があることがわかりました。
たとえば、会話の長さを最適化すると、ベースラインと比較して物議を醸す世代や非友好的な世代が増える可能性がありますが、肯定的な感情や反応を最適化すると、これらの行動を減らすことができます。

要約(オリジナル)

We study improving social conversational agents by learning from natural dialogue between users and a deployed model, without extra annotations. To implicitly measure the quality of a machine-generated utterance, we leverage signals like user response length, sentiment and reaction of the future human utterances in the collected dialogue episodes. Our experiments use the publicly released deployment data from BlenderBot (Xu et al., 2023). Human evaluation indicates improvements in our new models over baseline responses; however, we find that some proxy signals can lead to more generations with undesirable properties as well. For example, optimizing for conversation length can lead to more controversial or unfriendly generations compared to the baseline, whereas optimizing for positive sentiment or reaction can decrease these behaviors.

arxiv情報

著者 Richard Yuanzhe Pang,Stephen Roller,Kyunghyun Cho,He He,Jason Weston
発行日 2023-07-26 11:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク