Response-conditioned Turn-taking Prediction

要約

タイトル:応答条件付きのターンテイキング予測
要約:

– これまでの会話システムのターンテイキングと応答生成に関するアプローチは、2段階のプロセスとして扱ってきた。つまり、まずターンの終わりを検出してから、適切な応答を生成する。
– しかし、人間はターンをとることが確率的であるというだけでなく、自分が言いたいことが位置に適しているかを考慮する。
– 本論文では、会話履歴と次の話者が言いたいことの両方に基づいてターンの終わりを予測するモデル(TurnGPTの拡張版)を提案する。
– 基準となるモデルに比べて、さまざまなメトリックでモデルが安定して改善していることがわかる。
– ターン予測が会話履歴だけから曖昧になる2つのシナリオで、モデルの改善は特に目立つ。1つは、現在の発話が声明に続く質問を含んでいるとき、もう1つは、現在の発話の終わりが応答と意味的に一致しているとき。
– ターン予測と応答ランキングを1段階のプロセスとして扱い、モデルをインクリメンタルな応答ランキングに適用できることを示唆している。

要約(オリジナル)

Previous approaches to turn-taking and response generation in conversational systems have treated it as a two-stage process: First, the end of a turn is detected (based on conversation history), then the system generates an appropriate response. Humans, however, do not take the turn just because it is likely, but also consider whether what they want to say fits the position. In this paper, we present a model (an extension of TurnGPT) that conditions the end-of-turn prediction on both conversation history and what the next speaker wants to say. We found that our model consistently outperforms the baseline model in a variety of metrics. The improvement is most prominent in two scenarios where turn predictions can be ambiguous solely from the conversation history: 1) when the current utterance contains a statement followed by a question; 2) when the end of the current utterance semantically matches the response. Treating the turn-prediction and response-ranking as a one-stage process, our findings suggest that our model can be used as an incremental response ranker, which can be applied in various settings.

arxiv情報

著者 Bing’er Jiang,Erik Ekstedt,Gabriel Skantze
発行日 2023-05-03 11:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク