Multi-turn Response Selection with Commonsense-enhanced Language Models

要約

高度な人工知能の一分野として、対話システムが栄えています。
マルチターン応答選択は、対話システムにおける一般的な研究課題です。
背景情報と事前トレーニングされた言語モデルの助けにより、この問題に対する最先端の手法のパフォーマンスは大幅に向上しました。
しかし、既存の研究は外部の常識知識の重要性を無視しています。
したがって、事前トレーニングされた言語モデルがグラフ ニューラル ネットワーク (SinLG) と結合するシャム ネットワークを設計します。
SinLG は、事前トレーニング済み言語モデル (PLM) を利用してコンテキスト内の単語の相関関係と応答候補を捕捉し、グラフ ニューラル ネットワーク (GNN) を利用して外部ナレッジ グラフから役立つ常識を推論します。
GNN は、PLM の微調整を支援し、関連するメモリを呼び起こしてパフォーマンスを向上させることを目的としています。
具体的には、まず外部知識グラフから関連する概念をノードとして抽出し、各サンプルのスーパーノードとしてコンテキスト応答ペアを持つサブグラフを構築します。
次に、PLM と GNN の両方を介してコンテキスト応答ペアの 2 つの表現を学習します。
2 つの表現間の類似性の損失は、常識的な知識を GNN から PLM に転送するために利用されます。
その後、オンラインでの推論には PLM のみが使用されるため、効率が保証されます。
最後に、PERSONA-CHAT データセットの 2 つのバリアントに対して広範な実験を実施しました。これにより、私たちのソリューションが PLM のパフォーマンスを向上させるだけでなく、効率的な推論も達成できることが証明されました。

要約(オリジナル)

As a branch of advanced artificial intelligence, dialogue systems are prospering. Multi-turn response selection is a general research problem in dialogue systems. With the assistance of background information and pre-trained language models, the performance of state-of-the-art methods on this problem gains impressive improvement. However, existing studies neglect the importance of external commonsense knowledge. Hence, we design a Siamese network where a pre-trained Language model merges with a Graph neural network (SinLG). SinLG takes advantage of Pre-trained Language Models (PLMs) to catch the word correlations in the context and response candidates and utilizes a Graph Neural Network (GNN) to reason helpful common sense from an external knowledge graph. The GNN aims to assist the PLM in fine-tuning, and arousing its related memories to attain better performance. Specifically, we first extract related concepts as nodes from an external knowledge graph to construct a subgraph with the context response pair as a super node for each sample. Next, we learn two representations for the context response pair via both the PLM and GNN. A similarity loss between the two representations is utilized to transfer the commonsense knowledge from the GNN to the PLM. Then only the PLM is used to infer online so that efficiency can be guaranteed. Finally, we conduct extensive experiments on two variants of the PERSONA-CHAT dataset, which proves that our solution can not only improve the performance of the PLM but also achieve an efficient inference.

arxiv情報

著者 Yuandong Wang,Xuhui Ren,Tong Chen,Yuxiao Dong,Nguyen Quoc Viet Hung,Jie Tang
発行日 2024-07-26 03:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク