Context-driven Visual Object Recognition based on Knowledge Graphs

要約

オブジェクト認識のための現在の深層学習方法は純粋にデータ駆動型であり、良い結果を得るには多数のトレーニング サンプルが必要です。
画像データのみに依存するため、これらの方法は、小さな偏差が発生する新しい環境に直面すると失敗する傾向があります。
しかし、人間の知覚は、そのような分布の変化に対してはるかに堅牢であることが証明されています.
未知のシナリオに対処する彼らの能力は、文脈知識の広範な組み込みに基づいていると考えられています。
コンテキストは、シーン内のオブジェクトの共起または経験の記憶のいずれかに基づくことができます。
コンテキストを使用して見た画像のさまざまなオブジェクト表現を形成する人間の視覚野に従って、ナレッジ グラフにエンコードされた外部のコンテキスト知識を使用してディープ ラーニング手法を強化するアプローチを提案します。
したがって、一般的なナレッジ グラフからさまざまなコンテキスト ビューを抽出し、ビューをベクトル空間に変換して DNN に注入します。
同じ画像データセットの学習オブジェクト表現に対するさまざまなコンテキストビューの影響を調査するために、一連の実験を行います。
実験結果は、コンテキスト ビューが DNN の画像表現に異なる影響を与えるため、同じ画像に対して異なる予測をもたらすという証拠を提供します。
また、コンテキストが、通常は転移学習タスクまたは現実世界のシナリオで発生する、分布外の画像のオブジェクト認識モデルの堅牢性を強化するのに役立つことも示しています。

要約(オリジナル)

Current deep learning methods for object recognition are purely data-driven and require a large number of training samples to achieve good results. Due to their sole dependence on image data, these methods tend to fail when confronted with new environments where even small deviations occur. Human perception, however, has proven to be significantly more robust to such distribution shifts. It is assumed that their ability to deal with unknown scenarios is based on extensive incorporation of contextual knowledge. Context can be based either on object co-occurrences in a scene or on memory of experience. In accordance with the human visual cortex which uses context to form different object representations for a seen image, we propose an approach that enhances deep learning methods by using external contextual knowledge encoded in a knowledge graph. Therefore, we extract different contextual views from a generic knowledge graph, transform the views into vector space and infuse it into a DNN. We conduct a series of experiments to investigate the impact of different contextual views on the learned object representations for the same image dataset. The experimental results provide evidence that the contextual views influence the image representations in the DNN differently and therefore lead to different predictions for the same images. We also show that context helps to strengthen the robustness of object recognition models for out-of-distribution images, usually occurring in transfer learning tasks or real-world scenarios.

arxiv情報

著者 Sebastian Monka,Lavdim Halilaj,Achim Rettinger
発行日 2022-10-20 13:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SC パーマリンク