DRPT: Disentangled and Recurrent Prompt Tuning for Compositional Zero-Shot Learning

要約

タイトル:DRPT:Disentangled and Recurrent Prompt Tuning for Compositional Zero-Shot Learning

要約:
– Compositional Zero-shot Learning(CZSL)は、トレーニングサンプルがなくても既知の知識から構成される新しい概念を認識することを目的としています。
– 従来のCZSLは、可視的な原子を識別するか、未知の組成されたエンティティを強化することであり、その結果、状態とオブジェクト原子の相互作用が十分に利用できませんでした。
– ビジョン言語モデル(VLM)は、自然言語でのCZSLの処理に適用できますが、不均一な相互作用は、プロンプトを局所的な最適解に引きずり込む原因となります。
– 本論文では、VLMの潜在力をCZSLでより良く利用するために、新しいDisentangled and Recurrent Prompt TuningフレームワークであるDRPTを導入します。
– 特に、状態とオブジェクト原子は、プロントに組み込まれた学習可能な語彙トークンと見なされ、見られる構成で調整されます。
– 状態とオブジェクトを共同的に調整する代わりに、DRPTは、相互作用に起因する牽引力を抑制し、トークンパラメータを徐々に最適化するためのdisentangled and recurrent tuning戦略を設計し、より優れたプロントスペースに導きます。
– さらに、オブジェクトを最適化した後、状態を最適化し、その逆を進行的にfine-tuningする手順を開発しました。
– CZSLの相互作用を定量化して分析し、相互作用のリバランス最適化方式も補完しています。
– DRPTは、広範なベンチマークデータセットで代表的な最新の手法を上回り、精度と効率の両方で優れた性能を発揮します。

要約(オリジナル)

Compositional Zero-shot Learning (CZSL) aims to recognize novel concepts composed of known knowledge without training samples. Standard CZSL either identifies visual primitives or enhances unseen composed entities, and as a result, entanglement between state and object primitives cannot be fully utilized. Admittedly, vision- language models (VLMs) could naturally cope with CZSL through tuning prompts, while uneven entanglement leads prompts to be dragged into local optimum. In this paper, we take a further step to introduce a novel Disentangled and Recurrent Prompt Tuning framework termed DRPT to better tap the potential of VLMs in CZSL. Specifically, the state and object primitives are deemed as learnable tokens of vocabulary embedded in prompts and tuned on seen compositions. Instead of jointly tuning state and object, we devise a disentangled and recurrent tuning strategy to suppress the traction force caused by entanglement and gradually optimize the token parameters, leading to a better prompt space. Notably, we develop a progressive fine-tuning procedure that allows for incremental updates to the prompts, optimizing the object first, then the state, and vice versa. Meanwhile, the optimization of state and object is independent, thus clearer features can be learned to further alleviate the issue of entangling misleading optimization. Moreover, we quantify and analyze the entanglement in CZSL and supplement entanglement rebalancing optimization schemes. DRPT surpasses representative state-of-the-art methods on extensive benchmark datasets, demonstrating superiority in both accuracy and efficiency.

arxiv情報

著者 Xiaocheng Lu,Ziming Liu,Song Guo,Jingcai Guo,Fushuo Huo,Sikai Bai,Tao Han
発行日 2023-05-02 07:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク