Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?

要約

視覚表現学習の最近の進歩により、多数のダウンストリーム タスクですぐに使用できる強力な既製の豊富な機能を構築できるようになりました。
この作業の目的は、これらの機能がオブジェクトの空間的位置、視覚的特性、相対的な関係などのオブジェクトに関する情報をどの程度保持しているかを評価することです。
複雑な関係と異なる属性を持つ複数のオブジェクトが機能している視覚的推論のコンテキストでそれらを評価することにより、そうすることが提案されています。
より具体的には、視覚的質問応答のタスクの視覚的表現を評価するためのプロトコルを紹介します。
推論から視覚的特徴抽出を分離するために、浅いネットワークに依存する標準的な特徴評価と同様の精神で、評価される凍結された視覚的表現で訓練される特定の注意ベースの推論モジュールを設計します。
2 種類の視覚的表現、密に抽出された局所特徴とオブジェクト中心の特徴を、グラウンド トゥルースを使用した完全な画像表現のパフォーマンスと比較します。
主な調査結果は 2 つあります。
第 1 に、従来のプロキシ タスクでは優れたパフォーマンスを発揮しますが、そのような表現は複雑な推論問題を解決するには不十分です。
次に、オブジェクト中心の機能により、視覚的な推論を実行するために必要な重要な情報がより適切に保持されます。
提案されたフレームワークでは、この評価に方法論的にアプローチする方法を示します。

要約(オリジナル)

Recent advances in visual representation learning allowed to build an abundance of powerful off-the-shelf features that are ready-to-use for numerous downstream tasks. This work aims to assess how well these features preserve information about the objects, such as their spatial location, their visual properties and their relative relationships. We propose to do so by evaluating them in the context of visual reasoning, where multiple objects with complex relationships and different attributes are at play. More specifically, we introduce a protocol to evaluate visual representations for the task of Visual Question Answering. In order to decouple visual feature extraction from reasoning, we design a specific attention-based reasoning module which is trained on the frozen visual representations to be evaluated, in a spirit similar to standard feature evaluations relying on shallow networks. We compare two types of visual representations, densely extracted local features and object-centric ones, against the performances of a perfect image representation using ground truth. Our main findings are two-fold. First, despite excellent performances on classical proxy tasks, such representations fall short for solving complex reasoning problem. Second, object-centric features better preserve the critical information necessary to perform visual reasoning. In our proposed framework we show how to methodologically approach this evaluation.

arxiv情報

著者 Monika Wysoczańska,Tom Monnier,Tomasz Trzciński,David Picard
発行日 2022-12-20 14:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク