BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation

要約

標準言語モデリング (LM) の損失だけでは、効果的な対話モデリングには不十分であることが示されています。
その結果、オープンドメインの対話システムを強化するために、補助損失関数や人間のフィードバックの活用など、さまざまなトレーニング アプローチが採用されています。
このような補助損失関数の 1 つは、次の発話のすべての単語/トークンを予測するためのクロスエントロピー損失として定義される Bag-of-Words (BoW) 損失です。
この研究では、キーワード予測を通じて応答の中心的な考えを捕捉し、それを利用してオープンドメイン対話システムにおける意味のある解釈可能な応答の生成を強化するために、Bag-of-Keywords (BoK) 損失と呼ばれる新しい補助損失を提案します。
BoK 損失は、応答全体ではなく核となるアイデアを推定することを目的として、次の発話のキーワードまたは重要な単語/トークンのみを予測することによって BoW 損失をアップグレードします。
BoK 損失をエンコーダ/デコーダ (T5) アーキテクチャとデコーダのみ (DialoGPT) アーキテクチャの両方に組み込み、BoK と LM の加重合計 (BoK-LM) 損失を最小限に抑えるようにモデルをトレーニングします。
私たちは、DailyDialog と Persona-Chat という 2 つの人気のあるオープンドメインの対話データセットで実験を実行します。
我々は、BoK 損失を含めることでバックボーン モデルの対話生成が向上し、同時に事後解釈可能性も可能になることを示します。
また、参照フリーの指標として BoK-LM 損失の有効性を研究し、さまざまな対話評価データセットで最先端の指標と同等のパフォーマンスを観察しています。

要約(オリジナル)

The standard language modeling (LM) loss by itself has been shown to be inadequate for effective dialogue modeling. As a result, various training approaches, such as auxiliary loss functions and leveraging human feedback, are being adopted to enrich open-domain dialogue systems. One such auxiliary loss function is Bag-of-Words (BoW) loss, defined as the cross-entropy loss for predicting all the words/tokens of the next utterance. In this work, we propose a novel auxiliary loss named Bag-of-Keywords (BoK) loss to capture the central thought of the response through keyword prediction and leverage it to enhance the generation of meaningful and interpretable responses in open-domain dialogue systems. BoK loss upgrades the BoW loss by predicting only the keywords or critical words/tokens of the next utterance, intending to estimate the core idea rather than the entire response. We incorporate BoK loss in both encoder-decoder (T5) and decoder-only (DialoGPT) architecture and train the models to minimize the weighted sum of BoK and LM (BoK-LM) loss. We perform our experiments on two popular open-domain dialogue datasets, DailyDialog and Persona-Chat. We show that the inclusion of BoK loss improves the dialogue generation of backbone models while also enabling post-hoc interpretability. We also study the effectiveness of BoK-LM loss as a reference-free metric and observe comparable performance to the state-of-the-art metrics on various dialogue evaluation datasets.

arxiv情報

著者 Suvodip Dey,Maunendra Sankar Desarkar
発行日 2025-01-17 17:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク