PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts

要約

マルチモーダルな情報を認識し、人間との対話を実現することは、人工知能の長期的な目標です。
事前トレーニングは、マルチモーダルな対話に対する効果的なアプローチであると一般に考えられています。
しかし、入手可能なマルチモーダル対話データが限られているため、マルチモーダル対話の事前トレーニングに関する研究はまだ不足しています。
さらに別の興味深い課題は、さまざまな様式やタスクが関与するマルチモーダル対話の包括的な性質から生じます。
さらに、将来、予測できない時点で新しい形式のタスクが発生する可能性があります。
したがって、設計されたマルチモーダル対話モデルが、そのようなシナリオに適応するのに十分な柔軟性を備えていることが不可欠です。
この論文は、統一され、構造化され、構成されたマルチモーダル対話事前トレーニング フレームワークである \textbf{PaCE} を提案します。
複数の基本的な専門家の組み合わせを利用して、複数の対話関連タスクに対応し、限定された対話と広範な非対話マルチモーダル データを使用して事前トレーニングできます。
さらに、過去の古い専門家が新しい専門家を支援し、彼らの能力の拡大を促進する、進歩的なトレーニング方法を提案します。
実験結果は、PaCE が 8 つのマルチモーダル ダイアログ ベンチマークで最先端の結果を達成することを示しています。

要約(オリジナル)

Perceiving multi-modal information and fulfilling dialogues with humans is a long-term goal of artificial intelligence. Pre-training is commonly regarded as an effective approach for multi-modal dialogue. However, due to the limited availability of multi-modal dialogue data, there is still scarce research on multi-modal dialogue pre-training. Yet another intriguing challenge emerges from the encompassing nature of multi-modal dialogue, which involves various modalities and tasks. Moreover, new forms of tasks may arise at unpredictable points in the future. Hence, it is essential for designed multi-modal dialogue models to possess sufficient flexibility to adapt to such scenarios. This paper proposes \textbf{PaCE}, a unified, structured, compositional multi-modal dialogue pre-training framework. It utilizes a combination of several fundamental experts to accommodate multiple dialogue-related tasks and can be pre-trained using limited dialogue and extensive non-dialogue multi-modal data. Furthermore, we propose a progressive training method where old experts from the past can assist new experts, facilitating the expansion of their capabilities. Experimental results demonstrate that PaCE achieves state-of-the-art results on eight multi-modal dialog benchmarks.

arxiv情報

著者 Yunshui Li,Binyuan Hui,ZhiChao Yin,Min Yang,Fei Huang,Yongbin Li
発行日 2023-06-13 06:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク