要約
ビジョン言語モデル(VLMS)の急速な進歩に牽引されているため、大規模なマルチモーダルモデルの責任ある行動は、特に幻覚の検出と事実チェックに焦点を当てた顕著な研究分野になりました。
この論文では、責任あるAIチャレンジの2つのトラックのソリューションを紹介します。
一般的なドメインからのインスピレーションは、より小さな蒸留VLMが、より高い効率を達成しながら、下流のタスクで直接調整されたより大きなVLMよりも優れていることが多いことを示しています。
したがって、知識の蒸留の観点から2つのタスクに共同で取り組み、HKD4VLMと呼ばれる進歩的なハイブリッド知識蒸留フレームワークを提案します。
具体的には、全体的なフレームワークは、ピラミッドのような進行性のオンライン蒸留と三元結合洗練の蒸留に分解し、粗粒の知識アライメントから細粒の洗練に階層的に移動します。
また、モデルのパフォーマンスと堅牢性を高めるために、マッピングシフト強化推論と多様な増強戦略をさらに導入します。
広範な実験結果は、HKD4VLMの有効性を示しています。
アブレーション研究は、パフォーマンスの向上を促進する重要な設計の選択に関する洞察を提供します。
要約(オリジナル)
Driven by the rapid progress in vision-language models (VLMs), the responsible behavior of large-scale multimodal models has become a prominent research area, particularly focusing on hallucination detection and factuality checking. In this paper, we present the solution for the two tracks of Responsible AI challenge. Inspirations from the general domain demonstrate that a smaller distilled VLM can often outperform a larger VLM that is directly tuned on downstream tasks, while achieving higher efficiency. We thus jointly tackle two tasks from the perspective of knowledge distillation and propose a progressive hybrid knowledge distillation framework termed HKD4VLM. Specifically, the overall framework can be decomposed into Pyramid-like Progressive Online Distillation and Ternary-Coupled Refinement Distillation, hierarchically moving from coarse-grained knowledge alignment to fine-grained refinement. Besides, we further introduce the mapping shift-enhanced inference and diverse augmentation strategies to enhance model performance and robustness. Extensive experimental results demonstrate the effectiveness of our HKD4VLM. Ablation studies provide insights into the critical design choices driving performance gains.
arxiv情報
著者 | Zijian Zhang,Xuecheng Wu,Danlei Huang,Siyu Yan,Chong Peng,Xuezhi Cao |
発行日 | 2025-06-17 14:31:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google