VieCap4H-VLSP 2021: ObjectAoA — Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning

要約

画像キャプションは現在、視覚情報を理解し、人間の言語を使用して画像内のこの視覚情報を説明する能力を必要とする困難なタスクです。
この論文では、Attention on Attentionメカニズムを使用してObject Relation Transformerアーキテクチャを拡張することにより、Transformerベースの方法の画像理解能力を向上させる効率的な方法を提案します。
VieCap4H データセットの実験では、VLSP が保持する画像キャプション共有タスクの公開テストと非公開テストの両方で、提案された方法が元の構造よりも大幅に優れていることが示されています。

要約(オリジナル)

Image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of transformer-based method by extending Object Relation Transformer architecture with Attention on Attention mechanism. Experiments on the VieCap4H dataset show that our proposed method significantly outperforms its original structure on both the public test and private test of the Image Captioning shared task held by VLSP.

arxiv情報

著者 Nghia Hieu Nguyen,Duong T. D. Vo,Minh-Quan Ha
発行日 2023-02-27 03:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク