要約
視覚言語プリトレーニング(VLP)は、近年、多くのクロスモーダルなダウンストリームタスクを容易にすることに成功している。ほとんどの既存研究では、微調整された下流タスクの性能を比較することで、システムを評価している。しかし、平均的な下流タスクの精度だけでは、各VLP手法の長所と短所に関する情報はほとんど得られず、コミュニティが将来的にシステムをどのように改善できるかについての洞察も得られない。自然言語処理をテストするためのCheckListにヒントを得て、我々はVLPモデルの能力を理解するための新しいフレームワークであるVL-CheckListを紹介します。提案手法は、VLPモデルの画像テキスト化能力を、オブジェクト、属性、関係の3つのカテゴリに分け、さらにこれらの3つの側面を分解するために新しい分類法を使用するものである。提案手法を用いて、最近よく使われている7つのVLPモデルを分析し、包括的な研究を行いました。その結果、タスクのみの評価では見えてこなかったモデル間の細かな差異を明らかにし、提案手法の有効性を確認した。さらに、より良いVLPモデルを構築するための有望な研究の方向性を示す。データおよびコード: https://github.com/om-ai-lab/VL-CheckList
要約(オリジナル)
Vision-Language Pretraining (VLP) models have recently successfully facilitated many cross-modal downstream tasks. Most existing works evaluated their systems by comparing the fine-tuned downstream task performance. However, only average downstream task accuracy provides little information about the pros and cons of each VLP method, let alone provides insights on how the community can improve the systems in the future. Inspired by the CheckList for testing natural language processing, we introduce VL-CheckList, a novel framework to understand the capabilities of VLP models. The proposed method divides the image-texting ability of a VLP model into three categories: objects, attributes, and relations, and uses a novel taxonomy to further break down these three aspects. We conduct comprehensive studies to analyze seven recently popular VLP models via the proposed framework. Results confirm the effectiveness of the proposed method by revealing fine-grained differences among the compared models that were not visible from downstream task-only evaluation. Further results show promising research direction in building better VLP models. Data and Code: https://github.com/om-ai-lab/VL-CheckList
arxiv情報
著者 | Tiancheng Zhao,Tianqi Zhang,Mingwei Zhu,Haozhan Shen,Kyusong Lee,Xiaopeng Lu,Jianwei Yin |
発行日 | 2022-07-01 06:25:53+00:00 |
arxivサイト | arxiv_id(pdf) |