要約
タイトル: ビジュアルシーングラフを画像キャプションに変換する
要約:
– Scene Graphsをより記述的なキャプションに変換する提案をする。
– Scene Graphs内のグラフニューラルネットワーク (GNN) の埋め込みにマルチヘッドアテンション (MHA) を適用することで、異なるグラフ埋め込みには、部分的に異なる知識が含まれるため、品詞ごとに異なる単語を生成する。
– この構造に基づいたMixture-of-Expert(MOE)デコーダーを設計し、グラフ埋め込みを区別して、より詳細な言葉を生成する。
– この結果、以前のFully-Connected-based GNNとLSTM-based decoderが使用する異質な構造とは異なり、均質なエンコーダ – デコーダが構築され、同じトレーニング構成を使用できるため 、モデル全体のトレーニング、または異なるサブネットワークの分類を指定する必要はありません。訓練困難度が増すことがなくなったため、これによって全体のモデルが改善された。
– MS-COCOキャプション評価基準に関する幅広い実験で、TSGの有効性が検証されました。コードはここにあります:https://anonymous.4open.science/r/ACL23_TSG。
要約(オリジナル)
We propose to Transform Scene Graphs (TSG) into more descriptive captions. In TSG, we apply multi-head attention (MHA) to design the Graph Neural Network (GNN) for embedding scene graphs. After embedding, different graph embeddings contain diverse specific knowledge for generating the words with different part-of-speech, e.g., object/attribute embedding is good for generating nouns/adjectives. Motivated by this, we design a Mixture-of-Expert (MOE)-based decoder, where each expert is built on MHA, for discriminating the graph embeddings to generate different kinds of words. Since both the encoder and decoder are built based on the MHA, as a result, we construct a homogeneous encoder-decoder unlike the previous heterogeneous ones which usually apply Fully-Connected-based GNN and LSTM-based decoder. The homogeneous architecture enables us to unify the training configuration of the whole model instead of specifying different training strategies for diverse sub-networks as in the heterogeneous pipeline, which releases the training difficulty. Extensive experiments on the MS-COCO captioning benchmark validate the effectiveness of our TSG. The code is in: https://anonymous.4open.science/r/ACL23_TSG.
arxiv情報
著者 | Xu Yang,Jiawei Peng,Zihua Wang,Haiyang Xu,Qinghao Ye,Chenliang Li,Ming Yan,Fei Huang,Zhangzikang Li,Yu Zhang |
発行日 | 2023-05-05 05:27:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI