‘What are you referring to?’ Evaluating the Ability of Multi-Modal Dialogue Models to Process Clarificational Exchanges


通常、受信者はそのような曖昧さをすぐに検出し、メタコミュニケーションの明確化要求 (CR) と応答という明確化交換 (CE) を使用して、話者と協力して曖昧さを修復します。
ここでは、CR を生成して応答する機能が、マルチモーダルで視覚に基づいた対話モデルのアーキテクチャと目的関数に特定の制約を課すことを主張します。
SIMMC 2.0 データセットを使用して、さまざまな最先端のモデル アーキテクチャが CE を処理する能力を評価し、モデル内で CE から生じるコンテキストの更新を調査するメトリクスを使用します。
言語ベースのモデルは単純なマルチモーダル意味論情報をエンコードし、一部の CE を処理でき、対話履歴に関連するものよりも優れている一方、マルチモーダル モデルは追加の学習目標を使用して、非常に重要となる、もつれの解けたオブジェクト表現を取得できることがわかりました。


Referential ambiguities arise in dialogue when a referring expression does not uniquely identify the intended referent for the addressee. Addressees usually detect such ambiguities immediately and work with the speaker to repair it using meta-communicative, Clarificational Exchanges (CE): a Clarification Request (CR) and a response. Here, we argue that the ability to generate and respond to CRs imposes specific constraints on the architecture and objective functions of multi-modal, visually grounded dialogue models. We use the SIMMC 2.0 dataset to evaluate the ability of different state-of-the-art model architectures to process CEs, with a metric that probes the contextual updates that arise from them in the model. We find that language-based models are able to encode simple multi-modal semantic information and process some CEs, excelling with those related to the dialogue history, whilst multi-modal models can use additional learning objectives to obtain disentangled object representations, which become crucial to handle complex referential ambiguities across modalities overall.


著者 Javier Chiyah-Garcia,Alessandro Suglia,Arash Eshghi,Helen Hastie
発行日 2023-07-28 13:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク