ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks

要約

「あるデータ サイエンティストは、2 か月のワークショップのために低コストの外科用 VQA システムを開発するという任務を負っています。
データの機密性のため、彼女は病院から 50 時間分の手術ビデオを収集しており、プライバシーの承認には 2 か月かかります。
プライバシー制限により、ChatGPT などのプラットフォームにデータをアップロードできないため、彼女は 1 人のアノテーターと医療専門家を集めて QA ペアを手動で作成しました。
このプロセスには 3 週間かかり、費用は 10,000 ドル以上かかります。
トレーニングされたモデルは、限られたデータ範囲内で正確な応答を提供しますが、より広範な一般化性に欠けており、プロジェクトは 3 か月で完了します。」
上記のシナリオで示された課題を単純化するため。
この論文では、視覚言語トレーニングのために画像入力をテキストに置き換えます。
モダリティ ギャップを削減するための以前のノイズ注入方法からインスピレーションを得て、適応範囲コサイン類似性注入ノイズ (ArcSin) を導入しました。
まず、元のテキスト特徴の完全性を維持しながら、より変動性の高いテキスト要素を効果的に生成する革新的な適応ノイズ スケールを導入します。
第 2 に、類似性プール戦略が採用され、全体的なノイズ スケールを拡大することでドメイン一般化の可能性が拡大します。
この二重戦略により、コンテンツの整合性を保護しながら、元のドメインの範囲を効果的に拡大します。
私たちの経験的な結果は、これらのモデルがパフォーマンスの点で画像でトレーニングされたモデルにほぼ匹敵することを示しています。
具体的には、私たちの方法は以前の最先端技術に比べて大幅な改善を示し、S-Cap と M-Cap でそれぞれ 1.9 および 1.1 CIDEr ポイントのゲインを達成しました。
さらに、VQA、VQA-E、VE の精度がそれぞれ 0.5 パーセント ポイント (pp)、1.4 pp、1.4 pp 増加し、画像トレーニングされたモデル ベンチマークの制約内で達成可能な限界を押し広げていることがわかります。

要約(オリジナル)

‘A data scientist is tasked with developing a low-cost surgical VQA system for a 2-month workshop. Due to data sensitivity, she collects 50 hours of surgical video from a hospital, requiring two months for privacy approvals. Privacy restrictions prevent uploading data to platforms like ChatGPT, so she assembles one annotator and a medical expert to manually create QA pairs. This process takes three weeks and costs over $10,000. The trained model provides accurate responses within the limited data scope but lacks broader generalizability, completing the project in 3 months.’ To simplify the challenges presented in the scenario above. In this paper, we replace the image input with text for Vision-language training. Inspired by prior noise injection methods to reduce modality gaps, we introduce Adaptive ranged cosine Similarity injected noise (ArcSin). First, we introduce an innovative adaptive noise scale that effectively generates the textual elements with more variability while preserving the original text feature’s integrity. Second, a similarity pool strategy is employed, expanding the domain generalization potential by broadening the overall noise scale. This dual strategy effectively broadens the scope of the original domain while safeguarding content integrity. Our empirical results demonstrate that these models closely rival those trained on images in terms of performance. Specifically, our method exhibits substantial improvements over the previous state-of-the-art, achieving gains of 1.9 and 1.1 CIDEr points in S-Cap and M-Cap, respectively. Additionally, we observe increases of 0.5 percentage points (pp), 1.4 pp, and 1.4 pp in accuracy for VQA, VQA-E, and VE, respectively, pushing the boundaries of what is achievable within the constraints of image-trained model benchmarks.

arxiv情報

著者 Yang Liu,Xiaomin Yu,Gongyu Zhang,Zhen Zhu,Christos Bergeles,Prokar Dasgupta,Alejandro Granados,Sebastien Ourselin
発行日 2024-11-22 16:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク