ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain Dialogue Systems

要約

コモンセンス推論は人間のコミュニケーションに普遍的に存在するものであり、オープンドメインの対話システムにとって重要な機能である。しかし、対話システムにおけるコモンセンスの評価は、未だ未解決の課題である。我々は、イベントとその関係を考慮し、対話と一般的なコモンセンス推論の両方において重要であるイベントコモンセンスに注目することで、最初の一歩を踏み出す。我々は、コモンセンス知識ベース(CSKB)を利用したイベントコモンセンス評価指標ACCENTを提案する。ACCENTはまず対話から事象-関係タプルを抽出し、次にCSKBとの適合性の観点からタプルをスコアリングすることで応答を評価する。ACCENTを評価するために、オープンドメイン対話のための最初の公開イベントコモンセンス評価データセットを構築した。我々の実験により、ACCENTはイベントコモンセンス評価のための効率的な指標であり、既存のベースラインよりも人間の判断と高い相関を達成することが示された。

要約(オリジナル)

Commonsense reasoning is omnipresent in human communications and thus is an important feature for open-domain dialogue systems. However, evaluating commonsense in dialogue systems is still an open challenge. We take the first step by focusing on event commonsense that considers events and their relations, and is crucial in both dialogues and general commonsense reasoning. We propose ACCENT, an event commonsense evaluation metric empowered by commonsense knowledge bases (CSKBs). ACCENT first extracts event-relation tuples from a dialogue, and then evaluates the response by scoring the tuples in terms of their compatibility with the CSKB. To evaluate ACCENT, we construct the first public event commonsense evaluation dataset for open-domain dialogues. Our experiments show that ACCENT is an efficient metric for event commonsense evaluation, which achieves higher correlations with human judgments than existing baselines.

arxiv情報

著者 Sarik Ghazarian,Yijia Shao,Rujun Han,Aram Galstyan,Nanyun Peng
発行日 2023-11-03 05:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク