A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression Comprehension

要約

1 段階の参照表現理解 (REC) に関する既存の研究のほとんどは、主にマルチモーダル融合と推論に焦点を当てていますが、このタスクにおける他の要素の影響については詳細な調査が不足しています。
このギャップを埋めるために、本論文では実証研究を実施します。
具体的には、まず SimREC と呼ばれる非常に単純な REC ネットワークを構築し、ネットワーク設計からモデルのトレーニングまでの 1 段階の REC の全プロセスをカバーする 42 の候補設計/設定をアブレーションします。
その後、REC の 3 つのベンチマーク データセットに対して 100 を超える実験トライアルを実施します。
広範な実験結果は、マルチモーダル融合に加えて、マルチスケール機能やデータ拡張など、REC パフォーマンスに影響を与える重要な要素を示すだけでなく、従来の理解に反するいくつかの発見ももたらします。
たとえば、視覚と言語 (V&L) タスクとして、REC は事前の言語による影響をあまり受けません。
さらに、これらの発見を適切に組み合わせることで、SimREC のパフォーマンスを大幅に向上させることができます (例: RefCOCO+ では +27.12%)。これは、既存のすべての REC 手法を上回ります。
しかし、最も心強い発見は、SimREC がトレーニングのオーバーヘッドとパラメータがはるかに少ないにもかかわらず、UNITER や VILLA などの大規模な事前トレーニング済みモデルのセットよりも優れたパフォーマンスを達成できるということであり、既存の V&L 研究における REC の特別な役割を示しています。

要約(オリジナル)

Most of the existing work in one-stage referring expression comprehension (REC) mainly focuses on multi-modal fusion and reasoning, while the influence of other factors in this task lacks in-depth exploration. To fill this gap, we conduct an empirical study in this paper. Concretely, we first build a very simple REC network called SimREC, and ablate 42 candidate designs/settings, which covers the entire process of one-stage REC from network design to model training. Afterwards, we conduct over 100 experimental trials on three benchmark datasets of REC. The extensive experimental results not only show the key factors that affect REC performance in addition to multi-modal fusion, e.g., multi-scale features and data augmentation, but also yield some findings that run counter to conventional understanding. For example, as a vision and language (V&L) task, REC does is less impacted by language prior. In addition, with a proper combination of these findings, we can improve the performance of SimREC by a large margin, e.g., +27.12% on RefCOCO+, which outperforms all existing REC methods. But the most encouraging finding is that with much less training overhead and parameters, SimREC can still achieve better performance than a set of large-scale pre-trained models, e.g., UNITER and VILLA, portraying the special role of REC in existing V&L research.

arxiv情報

著者 Gen Luo,Yiyi Zhou,Jiamu Sun,Xiaoshuai Sun,Rongrong Ji
発行日 2023-09-14 13:33:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク