要約
最新の深層学習モデルは、視覚的な外観と本質的な関係 (因果構造など) データの両方が十分な場合、解絡表現学習 (DRL)、因果表現学習 (CRL)、視覚的質問応答 (
VQA) メソッド。
ただし、視覚領域が変化し、微調整中に関係データが存在しない場合、これらのモデルの一般化能力が課題となります。
この課題に対処するために、私たちは新しい学習フレームワークである Look, Learn and Leverage (L$^3$) を提案します。これは、学習プロセスを 3 つの異なる段階に分解し、クラスに依存しないセグメンテーション マスクを共通の記号空間として系統的に利用して、調整します。
視覚領域。
したがって、関係発見モデルはソース ドメインでトレーニングでき、視覚ドメインがシフトして固有の関係が存在しない場合、事前トレーニングされた関係発見モデルを直接再利用して満足のいくパフォーマンスを維持できます。
DRL、CRL、VQA という 3 つの異なるタスクに対して広範なパフォーマンス評価が実施され、3 つのタスクすべてで優れた結果が示され、L$^3$ の利点が明らかになりました。
要約(オリジナル)
Modern deep learning models have demonstrated outstanding performance on discovering the underlying mechanisms when both visual appearance and intrinsic relations (e.g., causal structure) data are sufficient, such as Disentangled Representation Learning (DRL), Causal Representation Learning (CRL) and Visual Question Answering (VQA) methods. However, generalization ability of these models is challenged when the visual domain shifts and the relations data is absent during finetuning. To address this challenge, we propose a novel learning framework, Look, Learn and Leverage (L$^3$), which decomposes the learning process into three distinct phases and systematically utilize the class-agnostic segmentation masks as the common symbolic space to align visual domains. Thus, a relations discovery model can be trained on the source domain, and when the visual domain shifts and the intrinsic relations are absent, the pretrained relations discovery model can be directly reused and maintain a satisfactory performance. Extensive performance evaluations are conducted on three different tasks: DRL, CRL and VQA, and show outstanding results on all three tasks, which reveals the advantages of L$^3$.
arxiv情報
著者 | Hanchen Xie,Jiageng Zhu,Mahyar Khayatkhoei,Jiazhi Li,Wael AbdAlmageed |
発行日 | 2024-08-30 15:53:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google