要約
コンピュータービジョンにおける深いニューラルネットワーク(DNNS)の顕著な成功にもかかわらず、トレーニングとテストデータの間の分布シフトに直面する場合、それらは高性能のままではありません。
この論文では、分布シフトの下での一般化を改善するために、マルチモーダルの事前知識を活用する分布ベースの学習アプローチである知識誘導視覚表現学習(KGV)を提案します。
2つの異なるモダリティからの知識を統合します。1)階層的および関連性のある関係を持つ知識グラフ(kg)。
2)KGで意味的に表される視覚要素の合成画像を生成しました。
それぞれの埋め込みは、一般的な潜在空間の与えられたモダリティから生成されます。つまり、元の画像と合成画像からの視覚埋め込み、および知識グラフ埋め込み(KGE)。
これらの埋め込みは、翻訳ベースのKGEメソッドの新しいバリアントを介して整列します。ここでは、KGのノードと関係の埋め込みは、それぞれガウス分布と翻訳としてモデル化されています。
マルチモデルの事前知識を組み込むことで、画像表現のより正規化された学習が可能になると主張しています。
したがって、モデルは、異なるデータ分布でよりよく一般化することができます。
主要またはマイナーな分布シフトを備えたさまざまな画像分類タスク、すなわちドイツ、中国、ロシアのデータセット間の道路標識分類、Mini-ImagenetデータセットとそのバリエーションとDVM-CARデータセットによる画像分類でKGVを評価します。
結果は、KGVがすべての実験でより高い精度とデータ効率を一貫して示すことを示しています。
要約(オリジナル)
Despite the remarkable success of deep neural networks (DNNs) in computer vision, they fail to remain high-performing when facing distribution shifts between training and testing data. In this paper, we propose Knowledge-Guided Visual representation learning (KGV) – a distribution-based learning approach leveraging multi-modal prior knowledge – to improve generalization under distribution shift. It integrates knowledge from two distinct modalities: 1) a knowledge graph (KG) with hierarchical and association relationships; and 2) generated synthetic images of visual elements semantically represented in the KG. The respective embeddings are generated from the given modalities in a common latent space, i.e., visual embeddings from original and synthetic images as well as knowledge graph embeddings (KGEs). These embeddings are aligned via a novel variant of translation-based KGE methods, where the node and relation embeddings of the KG are modeled as Gaussian distributions and translations, respectively. We claim that incorporating multi-model prior knowledge enables more regularized learning of image representations. Thus, the models are able to better generalize across different data distributions. We evaluate KGV on different image classification tasks with major or minor distribution shifts, namely road sign classification across datasets from Germany, China, and Russia, image classification with the mini-ImageNet dataset and its variants, as well as the DVM-CAR dataset. The results demonstrate that KGV consistently exhibits higher accuracy and data efficiency across all experiments.
arxiv情報
著者 | Hongkuan Zhou,Lavdim Halilaj,Sebastian Monka,Stefan Schmid,Yuqicheng Zhu,Bo Xiong,Steffen Staab |
発行日 | 2025-02-12 13:22:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google