ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation

要約

最先端のビジョン言語モデル (VLM) は、オブジェクト間の関係などの構造的知識の抽出におけるパフォーマンスがまだ限られています。
この研究では、効果的な視覚構造知識抽出のための VLM を学習するためのトレーニング フレームワークである ViStruct を紹介します。
2つの斬新なデザインを採用。
まず、プログラミング言語の固有の構造を利用して視覚的な構造情報を表現することを提案します。
このアプローチにより、概念、関係、イベントなどの複数の粒度の視覚的構造情報を、よく整理された構造化フォーマットで明示的かつ一貫して表現できるようになります。
次に、基本的な視覚概念から複雑なイベント構造に至るまで、視覚構造を段階的に理解するために、VLM にカリキュラムベースの学習を導入します。
私たちの直観では、低レベルの知識が複雑な視覚構造の理解に貢献する可能性があります。
さらに、視覚的な構造知識の抽出に合わせたデータセットのコレクションを編集して公開します。
私たちは、Web からの豊富な画像とキャプションのペアを利用して、ViStruct トレーニング用のキャプションから視覚的なイベント構造を直接生成する弱い教師ありアプローチを採用しています。
実験では、視覚構造予測タスクで ViStruct を評価し、視覚構造の理解を向上させる効果を実証しました。
コードは \url{https://github.com/Yangyi-Chen/vi-struct} で公開されています。

要約(オリジナル)

State-of-the-art vision-language models (VLMs) still have limited performance in structural knowledge extraction, such as relations between objects. In this work, we present ViStruct, a training framework to learn VLMs for effective visual structural knowledge extraction. Two novel designs are incorporated. First, we propose to leverage the inherent structure of programming language to depict visual structural information. This approach enables explicit and consistent representation of visual structural information of multiple granularities, such as concepts, relations, and events, in a well-organized structured format. Second, we introduce curriculum-based learning for VLMs to progressively comprehend visual structures, from fundamental visual concepts to intricate event structures. Our intuition is that lower-level knowledge may contribute to complex visual structure understanding. Furthermore, we compile and release a collection of datasets tailored for visual structural knowledge extraction. We adopt a weakly-supervised approach to directly generate visual event structures from captions for ViStruct training, capitalizing on abundant image-caption pairs from the web. In experiments, we evaluate ViStruct on visual structure prediction tasks, demonstrating its effectiveness in improving the understanding of visual structures. The code is public at \url{https://github.com/Yangyi-Chen/vi-struct}.

arxiv情報

著者 Yangyi Chen,Xingyao Wang,Manling Li,Derek Hoiem,Heng Ji
発行日 2023-11-22 09:23:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク