Reason from Context with Self-supervised Learning

要約

タイトル-セルフスーパーバイズ学習における文脈的連想の強化

要約
– 自己スーパーバイズ学習(SSL)は、知識移転に役立つ識別的な視覚的特徴を捕捉するために学習する。現在のオブジェクト認識や検知のような後段のタスクが対象を中心に設計されているため、文脈的なバイアスを抑制する方法やオブジェクトを文脈から切り離す方法が提案されている。しかし、微小または隠れたオブジェクトを認識したり推論したりする場合のように、関連する文脈から対象のアイデンティティを推論する必要のある状況では、これらの方法は不十分である可能性がある。SSL文献における初期の試みとして、私たちは(a)外部メモリを使用したコンテキスト推論のための新しいセルフスーパーバイズ法(SeCo)を提案し、(b)’what’および’where’の問題に対処するためのリフト-ザ-フラップおよびオブジェクトプライミングの2つの新しい後続タスクを紹介することにより、SSL文脈内の視覚的推論における文脈的連想がどのように強化されるかを調査する。両方のタスクにおいて、SeCoはすべての最新のSSL手法を大幅に上回った。私たちのネットワーク分析により、SeCoの提案された外部メモリが事前の文脈的知識を格納することを学ぶことが明らかになった。さらに、私たちは心理物理学的実験を実施し、対象のプライミングデータセット(HOP)で人間の基準点を導入した。私たちの結果は、SeCoが人間のような行動を示すことを示しています。

要点
– 自己スーパーバイズ学習(SSL)は、知識移転に役立つ視覚的特徴を捕捉するために学習する。
– 現在のオブジェクト認識や検知のような後段のタスクが対象を中心に設計されているため、文脈的なバイアスを抑制する方法やオブジェクトを文脈から切り離す方法が提案されている。
– 関連する文脈から対象のアイデンティティを推論する必要のある状況では、これらの方法は不十分である可能性がある。
– 新しいセルフスーパーバイズ法(SeCo)を提案し、リフト-ザ-フラップおよびオブジェクトプライミングの2つの新しい後続タスクを紹介することにより、SSL文脈内の視覚的推論における文脈的連想がどのように強化されるかを調査する。
– 結果として、SeCoはすべての最新のSSL手法を大幅に上回った。
– SeCoの提案された外部メモリが事前の文脈的知識を格納することを学ぶことが明らかになった。
– SeCoが人間のような行動を示すことを示す心理物理学的実験を実施した。

要約(オリジナル)

Self-supervised learning (SSL) learns to capture discriminative visual features useful for knowledge transfers. To better accommodate the object-centric nature of current downstream tasks such as object recognition and detection, various methods have been proposed to suppress contextual biases or disentangle objects from contexts. Nevertheless, these methods may prove inadequate in situations where object identity needs to be reasoned from associated context, such as recognizing or inferring tiny or obscured objects. As an initial effort in the SSL literature, we investigate whether and how contextual associations can be enhanced for visual reasoning within SSL regimes, by (a) proposing a new Self-supervised method with external memories for Context Reasoning (SeCo), and (b) introducing two new downstream tasks, lift-the-flap and object priming, addressing the problems of ‘what’ and ‘where’ in context reasoning. In both tasks, SeCo outperformed all state-of-the-art (SOTA) SSL methods by a significant margin. Our network analysis revealed that the proposed external memory in SeCo learns to store prior contextual knowledge, facilitating target identity inference in the lift-the-flap task. Moreover, we conducted psychophysics experiments and introduced a Human benchmark in Object Priming dataset (HOP). Our results demonstrate that SeCo exhibits human-like behaviors.

arxiv情報

著者 Xiao Liu,Ankur Sikarwar,Gabriel Kreiman,Zenglin Shi,Mengmi Zhang
発行日 2023-04-11 07:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク