SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph

要約

既存のマルチモーダル会話エージェントは、単純なシナリオでは絶対位置の特定や属性の検索に優れた能力を示すが、複雑な相対位置や情報配置が含まれる場合にはうまく機能せず、応答品質のボトルネックとなる。本論文では、マルチホップ空間関係を推論し、視覚的属性と結びつける能力を持つSPRING (Situated Conversation Agent with Multimodal Questions from INcremental Layout Graph)を提案する。具体的には、2種類のマルチモーダル質問応答(MQA)タスクを設計し、エージェントを事前学習させる。事前学習で使用される全てのQAペアは、新しいインクリメンタルレイアウトグラフ(ILG)から生成される。ILGによって自動的にアノテーションされたQAペアの難易度ラベルは、MQAに基づくカリキュラム学習を促進するために使用されます。SPRINGは、SIMMC 1.0とSIMMC 2.0の両方のデータセットにおいて、最先端のアプローチを大幅に上回る結果を示しており、その有効性が実験的に証明されています。

要約(オリジナル)

Existing multimodal conversation agents have shown impressive abilities to locate absolute positions or retrieve attributes in simple scenarios, but they fail to perform well when complex relative positions and information alignments are involved, which poses a bottleneck in response quality. In this paper, we propose a Situated Conversation Agent Petrained with Multimodal Questions from INcremental Layout Graph (SPRING) with abilities of reasoning multi-hops spatial relations and connecting them with visual attributes in crowded situated scenarios. Specifically, we design two types of Multimodal Question Answering (MQA) tasks to pretrain the agent. All QA pairs utilized during pretraining are generated from novel Incremental Layout Graphs (ILG). QA pair difficulty labels automatically annotated by ILG are used to promote MQA-based Curriculum Learning. Experimental results verify the SPRING’s effectiveness, showing that it significantly outperforms state-of-the-art approaches on both SIMMC 1.0 and SIMMC 2.0 datasets.

arxiv情報

著者 Yuxing Long,Binyuan Hui,Fulong Ye,Yanyang Li,Zhuoxin Han,Caixia Yuan,Yongbin Li,Xiaojie Wang
発行日 2023-01-05 08:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク