要約
我々は $\mathbb{VD}$-$\mathbb{GR}$ を提案します。これは、事前訓練された言語モデル (LM) とグラフ ニューラル ネットワーク (GNN) を組み合わせた新しいビジュアル ダイアログ モデルです。
これまでの研究では、主に 1 つのクラスのモデルに焦点を当て、他のモデルを犠牲にしていたため、それぞれの利点を組み合わせる機会を逃していました。
$\mathbb{VD}$-$\mathbb{GR}$ の中核となるのは、時空間マルチモーダル GNN と BERT 層を交互に切り替える新しい統合メカニズムであり、3 つの異なる貢献をカバーします。
-モーダル GNN は、BERT グローバル アテンションを実行する前に、各モダリティの機能 (画像、質問、対話履歴) を処理し、ローカル構造を活用します。
次に、1 つのモダリティ グラフ内の他のすべてのノードにリンクするハブ ノードを提案します。これにより、モデルが 1 つの GNN (モダリティ) から別の GNN (モダリティ) にカスケード方式で情報を伝播できるようになります。
第三に、BERT 隠れ状態を次の $\mathbb{VD}$-$\mathbb{GR}$ 層に渡す前に、きめの細かいマルチモーダル GNN 特徴で強化します。
VisDial v1.0、VisDial v0.9、VisDialConv、VisPro の評価では、$\mathbb{VD}$-$\mathbb{GR}$ が 4 つのデータセットすべてにわたって新しい最先端の結果を達成していることが示されています。
要約(オリジナル)
We propose $\mathbb{VD}$-$\mathbb{GR}$ – a novel visual dialog model that combines pre-trained language models (LMs) with graph neural networks (GNNs). Prior works mainly focused on one class of models at the expense of the other, thus missing out on the opportunity of combining their respective benefits. At the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that alternates between spatial-temporal multi-modal GNNs and BERT layers, and that covers three distinct contributions: First, we use multi-modal GNNs to process the features of each modality (image, question, and dialog history) and exploit their local structures before performing BERT global attention. Second, we propose hub-nodes that link to all other nodes within one modality graph, allowing the model to propagate information from one GNN (modality) to the other in a cascaded manner. Third, we augment the BERT hidden states with fine-grained multi-modal GNN features before passing them to the next $\mathbb{VD}$-$\mathbb{GR}$ layer. Evaluations on VisDial v1.0, VisDial v0.9, VisDialConv, and VisPro show that $\mathbb{VD}$-$\mathbb{GR}$ achieves new state-of-the-art results across all four datasets.
arxiv情報
著者 | Adnen Abdessaied,Lei Shi,Andreas Bulling |
発行日 | 2023-10-25 12:25:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google