ConStruct-VL: Data-Free Continual Structured VL Concepts Learning

要約

最近、大規模な事前トレーニング済みのビジョンと言語 (VL) の基礎モデルが、多くのゼロショット ダウンストリーム タスクで優れた機能を発揮し、短いテキスト プロンプトで定義されたオブジェクトの認識で競争力のある結果を達成しています。
ただし、VL モデルは、オブジェクトの属性、状態、およびオブジェクト間の関係を認識する機能など、Structured VL Concept (SVLC) の推論ではまだ脆弱であることも示されています。
これは推論の誤りにつながり、VL モデルに不足している SVLC スキルを教えることによって、誤りが発生したときに修正する必要があります。
多くの場合、これは問題が見つかったプライベート データを使用して実行する必要があります。これにより、データのない継続的な (タスク ID のない) VL 学習設定に自然につながります。
この作業では、最初の連続データフリー構造化 VL コンセプト学習 (ConStruct-VL) ベンチマークを紹介し、多くの既存のデータフリー CL 戦略にとって挑戦的であることを示します。
したがって、過去のタスクモデルから過去のタスクの敵対的なリマインダーを生成する、Adversarial Pseudo-Replay (APR) の新しいアプローチで構成されるデータフリーの方法を提案します。
この方法を効率的に使用するために、トレーニング時に過去のすべてのモデルにメモリ コストなしでアクセスできる、継続的なパラメーター効率の高い Layered-LoRA (LaLo) ニューラル アーキテクチャも提案します。
このアプローチは、データを使用しないすべての方法よりも最大 7% も優れていることを示していますが、ある程度の経験リプレイのレベルにも匹敵します (データのプライバシーを保護する必要があるアプリケーションでは禁止されています)。

要約(オリジナル)

Recently, large-scale pre-trained Vision-and-Language (VL) foundation models have demonstrated remarkable capabilities in many zero-shot downstream tasks, achieving competitive results for recognizing objects defined by as little as short text prompts. However, it has also been shown that VL models are still brittle in Structured VL Concept (SVLC) reasoning, such as the ability to recognize object attributes, states, and inter-object relations. This leads to reasoning mistakes, which need to be corrected as they occur by teaching VL models the missing SVLC skills; often this must be done using private data where the issue was found, which naturally leads to a data-free continual (no task-id) VL learning setting. In this work, we introduce the first Continual Data-Free Structured VL Concepts Learning (ConStruct-VL) benchmark and show it is challenging for many existing data-free CL strategies. We, therefore, propose a data-free method comprised of a new approach of Adversarial Pseudo-Replay (APR) which generates adversarial reminders of past tasks from past task models. To use this method efficiently, we also propose a continual parameter-efficient Layered-LoRA (LaLo) neural architecture allowing no-memory-cost access to all past models at train time. We show this approach outperforms all data-free methods by as much as ~7% while even matching some levels of experience-replay (prohibitive for applications where data-privacy must be preserved).

arxiv情報

著者 James Seale Smith,Paola Cascante-Bonilla,Assaf Arbelle,Donghyun Kim,Rameswar Panda,David Cox,Diyi Yang,Zsolt Kira,Rogerio Feris,Leonid Karlinsky
発行日 2022-11-17 18:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク