Visual Representation Learning Guided By Multi-modal Prior Knowledge

要約

コンピューター ビジョンにおけるディープ ニューラル ネットワーク (DNN) は目覚ましい成功を収めていますが、トレーニング データとテスト データの間の分布の変化に直面すると、高いパフォーマンスを維持できなくなります。
この論文では、分布シフト下での汎化を改善するために、マルチモーダルな事前知識を活用した分布ベースの学習アプローチである、知識誘導型視覚表現学習 (KGV) を提案します。
私たちは 2 つの異なるモダリティからの事前知識を使用します。1) 階層関係と関連性を備えたナレッジ グラフ (KG)。
2) KG で意味論的に表現された視覚要素の合成画像を生成します。
それぞれの埋め込みは、共通の潜在空間内の指定されたモダリティから生成されます。つまり、元の画像と合成画像からの視覚的な埋め込みと、ナレッジ グラフ 埋め込み (KGE) が生成されます。
これらの埋め込みは、翻訳ベースの KGE 手法の新しい変種を介して位置合わせされます。KG のノードと関係の埋め込みは、それぞれガウス分布と変換としてモデル化されます。
マルチモデルの事前知識を組み込むことで、画像表現のより正規化された学習が可能になると主張します。
したがって、モデルはさまざまなデータ分布にわたってより適切に一般化できます。
私たちは、大小の分布の変化を伴うさまざまな画像分類タスク、つまりドイツ、中国、ロシアのデータセットにわたる道路標識分類、mini-ImageNet データセットとそのバリアント、および DVM-CAR データセットを使用した画像分類について KGV を評価します。
結果は、KGV がすべての実験においてベースラインよりも一貫して高い精度とデータ効率を示していることを示しています。

要約(オリジナル)

Despite the remarkable success of deep neural networks (DNNs) in computer vision, they fail to remain high-performing when facing distribution shifts between training and testing data. In this paper, we propose Knowledge-Guided Visual representation learning (KGV), a distribution-based learning approach leveraging multi-modal prior knowledge, to improve generalization under distribution shift. We use prior knowledge from two distinct modalities: 1) a knowledge graph (KG) with hierarchical and association relationships; and 2) generated synthetic images of visual elements semantically represented in the KG. The respective embeddings are generated from the given modalities in a common latent space, i.e., visual embeddings from original and synthetic images as well as knowledge graph embeddings (KGEs). These embeddings are aligned via a novel variant of translation-based KGE methods, where the node and relation embeddings of the KG are modeled as Gaussian distributions and translations respectively. We claim that incorporating multi-model prior knowledge enables more regularized learning of image representations. Thus, the models are able to better generalize across different data distributions. We evaluate KGV on different image classification tasks with major or minor distribution shifts, namely road sign classification across datasets from Germany, China, and Russia, image classification with the mini-ImageNet dataset and its variants, as well as the DVM-CAR dataset. The results demonstrate that KGV consistently exhibits higher accuracy and data efficiency than the baselines across all experiments.

arxiv情報

著者 Hongkuan Zhou,Lavdim Halilaj,Sebastian Monka,Stefan Schmid,Yuqicheng Zhu,Bo Xiong,Steffen Staab
発行日 2024-10-21 13:06:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク