Exploring Multi-Modal Representations for Ambiguity Detection & Coreference Resolution in the SIMMC 2.0 Challenge

要約

代名詞や指示記述などの照応表現は、直前の視覚環境だけでなく、前のターンの言語的文脈にも関連して配置されます。
ただし、話者の指示による説明は、常に指示対象を一意に特定できるわけではないため、曖昧な点が生じ、その後の説明のやりとりを通じて解決する必要があります。
したがって、効果的なあいまいさの検出と共参照の解決が、会話型 AI におけるタスクの成功の鍵となります。
この論文では、SIMMC 2.0 Challenge (Kottur et al. 2021) の一部として、これら 2 つのタスクのモデルを紹介します。
具体的には、TOD-BERT および LXMERT ベースのモデルを使用し、それらを多数のベースラインと比較し、アブレーション実験を提供します。
私たちの結果は、(1) 言語モデルはデータ内の相関関係を利用して曖昧さを検出できることを示しています。
(2) ユニモーダル共参照解決モデルは、スマート オブジェクト表現の使用により、ビジョン コンポーネントの必要性を回避できます。

要約(オリジナル)

Anaphoric expressions, such as pronouns and referential descriptions, are situated with respect to the linguistic context of prior turns, as well as, the immediate visual environment. However, a speaker’s referential descriptions do not always uniquely identify the referent, leading to ambiguities in need of resolution through subsequent clarificational exchanges. Thus, effective Ambiguity Detection and Coreference Resolution are key to task success in Conversational AI. In this paper, we present models for these two tasks as part of the SIMMC 2.0 Challenge (Kottur et al. 2021). Specifically, we use TOD-BERT and LXMERT based models, compare them to a number of baselines and provide ablation experiments. Our results show that (1) language models are able to exploit correlations in the data to detect ambiguity; and (2) unimodal coreference resolution models can avoid the need for a vision component, through the use of smart object representations.

arxiv情報

著者 Javier Chiyah-Garcia,Alessandro Suglia,José Lopes,Arash Eshghi,Helen Hastie
発行日 2023-07-26 15:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク