ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

要約

状況認識は、アクティビティ動詞と、アクターやオブジェクトが果たす意味論的な役割を使用して、画像内で何が起こっているかの構造化された概要を生成するタスクです。
このタスクでは、同じアクティビティ動詞がさまざまな状況を説明できるほか、同じアクターまたはオブジェクト カテゴリが、画像に描かれている状況に応じてさまざまな意味上の役割を果たすことができます。
したがって、状況認識モデルは、画像のコンテキストと意味的役割の視覚言語的意味を理解する必要があります。
したがって、言語記述を通じて画像のコンテキストを学習した CLIP 基本モデルを活用します。
より深く幅広い多層パーセプトロン (MLP) ブロックが、CLIP 画像とテキストの埋め込み機能を使用することにより、状況認識タスクで注目に値する結果を取得し、最先端の Transformer ベースの CoFormer よりも優れたパフォーマンスを発揮することを示します。
このモデルは、CLIP によってカプセル化された外部の暗黙的な視覚言語知識と、最新の MLP ブロック設計の表現力のおかげで実現されます。
これを動機として、テキストの役割と視覚的エンティティの間の関係をモデル化する CLIP ビジュアル トークンを使用して、クロスアテンション ベースの Transformer を設計します。
ClipSitu XTF として知られる当社のクロスアテンションベースの Transformer は、imSitu データセットを使用したトップ 1 の精度で、セマンティック ロール ラベリング (値) に関して既存の最先端技術を 14.1\% という大きなマージンで上回っています。
{同様に、ClipSitu XTF は最先端の状況位置特定パフォーマンスを実現します。} コードは公開します。

要約(オリジナル)

Situation Recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or object category can play a diverse set of semantic roles depending on the situation depicted in the image. Hence a situation recognition model needs to understand the context of the image and the visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP foundational model that has learned the context of images via language descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks obtain noteworthy results for the situation recognition task by using CLIP image and text embedding features and it even outperforms the state-of-the-art CoFormer, a Transformer-based model, thanks to the external implicit visual-linguistic knowledge encapsulated by CLIP and the expressive power of modern MLP block designs. Motivated by this, we design a cross-attention-based Transformer using CLIP visual tokens that model the relation between textual roles and visual entities. Our cross-attention-based Transformer known as ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1\% on semantic role labelling (value) for top-1 accuracy using imSitu dataset. {Similarly, our ClipSitu XTF obtains state-of-the-art situation localization performance.} We will make the code publicly available.

arxiv情報

著者 Debaditya Roy,Dhruv Verma,Basura Fernando
発行日 2023-09-11 09:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク