Extracting triples from dialogues for conversational social agents

要約

ハイブリッド インテリジェンス コラボレーション内のコミュニケーションを明確に理解することは、制御可能で透過的なエージェントを作成するために不可欠です。
この論文では、社会的会話から明示的な記号トリプルを抽出するいくつかの自然言語理解モデルについて説明します。
トリプル抽出は主に、トレーニングとテストに Wikipedia のテキストとデータを使用してナレッジ ベースを完成させるために開発およびテストされています。
ただし、社会的会話は、対話者が発言、質問、回答を含む一連の発話で情報を交換するジャンルとしては、まったく異なります。
共参照、省略、調整、暗黙的および明示的な否定または確認などの現象は、ウィキペディアのテキストよりも会話の中でより顕著に現れます。
したがって、トレーニング用のデータセットをリリースし、社会的会話からのトリプル抽出をテストすることで、このギャップを埋める試みについて説明します。
また、5 つのトリプル抽出モデルを作成し、評価データでテストしました。
単一の発話でテストした場合、最高精度は完全なトリプルの場合は 51.14、トリプル要素の場合は 69.32 です。
ただし、複数のターンにまたがる会話トリプルのスコアははるかに低く、真の会話データから知識を抽出することがはるかに困難であることを示しています。

要約(オリジナル)

Obtaining an explicit understanding of communication within a Hybrid Intelligence collaboration is essential to create controllable and transparent agents. In this paper, we describe a number of Natural Language Understanding models that extract explicit symbolic triples from social conversation. Triple extraction has mostly been developed and tested for Knowledge Base Completion using Wikipedia text and data for training and testing. However, social conversation is very different as a genre in which interlocutors exchange information in sequences of utterances that involve statements, questions, and answers. Phenomena such as co-reference, ellipsis, coordination, and implicit and explicit negation or confirmation are more prominent in conversation than in Wikipedia text. We therefore describe an attempt to fill this gap by releasing data sets for training and testing triple extraction from social conversation. We also created five triple extraction models and tested them in our evaluation data. The highest precision is 51.14 for complete triples and 69.32 for triple elements when tested on single utterances. However, scores for conversational triples that span multiple turns are much lower, showing that extracting knowledge from true conversational data is much more challenging.

arxiv情報

著者 Piek Vossen,Selene Báez Santamaría,Lenka Bajčetić,Thomas Belluci
発行日 2024-12-24 11:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク