Model Developmental Safety: A Retention-Centric Method and Applications in Vision-Language Models

要約

現実の世界では、学習対応システムは通常、困難なタスクや新たなタスクを処理するシステムの能力を強化するために、モデル開発の複数サイクルを経ます。
この継続的なモデル開発プロセスは、新しい機能を獲得したり、既存の機能を改善したりするためのモデル開発が、古いモデルの機能を誤って失う可能性があるという重大な問題を引き起こします (壊滅的な忘却とも呼ばれます)。
既存の継続学習研究は、良好な平均パフォーマンスを確保するために、以前のタスクと新しいタスクのパフォーマンスをトレードオフすることによって壊滅的な物忘れを軽減することに焦点を当てています。
しかし、古いモデルの優れた性能を厳密に維持できないと、安全性のリスクや不確実性が生じるだけでなく、既存のモデルの再改善や再検証に多大な費用がかかるため、特に安全性が重要な領域における多くの用途には不十分です。
プロパティ。
この問題に対処するために、学習システムの保証としてモデル開発の安全性を導入します。これにより、モデル開発プロセスにおいて、新しいモデルは、ターゲット タスクのパフォーマンスを向上させながら、古いモデルの既存の保護された機能を厳密に保持する必要があります。
モデルの開発の安全性を確保するために、モデルの開発の安全性をデータ依存の制約として定式化することで、保持中心のフレームワークを提示します。
このフレームワークの下で、画像分類の新しい機能を獲得したり、既存の機能を改善したりするための、事前トレーニング済み視覚言語モデル、特に CLIP モデルを開発する方法を研究します。
私たちは、理論的保証を備えた効率的な制約付き最適化アルゴリズムを提案し、その洞察を使用して、モデル開発の安全性を促進するためにタスク依存のヘッドを使用して CLIP モデルを微調整します。
自動運転およびシーン認識データセットにおける視覚認識能力の向上に関する私たちの実験は、提案されたアプローチの有効性を実証しています。

要約(オリジナル)

In the real world, a learning-enabled system usually undergoes multiple cycles of model development to enhance the system’s ability to handle difficult or emerging tasks. This continual model development process raises a significant issue that the model development for acquiring new or improving existing capabilities may inadvertently lose capabilities of the old model, also known as catastrophic forgetting. Existing continual learning studies focus on mitigating catastrophic forgetting by trading off performance on previous tasks and new tasks to ensure good average performance. However, they are inadequate for many applications especially in safety-critical domains, as failure to strictly preserve the good performance of the old model not only introduces safety risks and uncertainties but also imposes substantial expenses in the re-improving and re-validation of existing properties. To address this issue, we introduce model developmental safety as a guarantee of a learning system such that in the model development process the new model should strictly preserve the existing protected capabilities of the old model while improving its performance on target tasks. To ensure the model developmental safety, we present a retention-centric framework by formulating the model developmental safety as data-dependent constraints. Under this framework, we study how to develop a pretrained vision-language model, specifically the CLIP model, for acquiring new capabilities or improving existing capabilities of image classification. We propose an efficient constrained optimization algorithm with theoretical guarantee and use its insights to finetune a CLIP model with task-dependent heads for promoting the model developmental safety. Our experiments on improving vision perception capabilities on autonomous driving and scene recognition datasets demonstrate the efficacy of the proposed approach.

arxiv情報

著者 Gang Li,Wendi Yu,Yao Yao,Wei Tong,Yingbin Liang,Qihang Lin,Tianbao Yang
発行日 2024-12-12 15:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク