Hyperbolic Learning with Multimodal Large Language Models

要約

双曲線埋め込みは、画像セグメンテーションやアクティブ ラーニングなどのさまざまな深層学習タスクにわたる不確実性と階層関係の尺度を取得する際に有効であることが実証されています。
ただし、最新のビジョン言語モデル (VLM) への応用は限られています。
注目すべき例外は MERU です。MERU は、数億のパラメータで構成される CLIP ViT-large モデルの双曲空間の階層特性を利用します。
私たちの研究では、BLIP-2 アーキテクチャを使用して、パラメーター (数十億) とトレーニングの複雑さの観点からマルチモーダル双曲線モデルを桁違いにスケーリングするという課題に取り組んでいます。
双曲線埋め込みは、ユークリッド埋め込みには存在しない不確実性に対する潜在的な洞察を提供しますが、私たちの分析では、これらのモデルのスケーリングが特に難しいことが明らかになりました。
我々は、BLIP-2の双曲バージョンに対する新しいトレーニング戦略を提案します。これにより、トレーニングプロセス全体を通じて安定性を維持し、各埋め込みの不確実性の意味のある兆候を示しながら、ユークリッド対応物と同等のパフォーマンスを達成することができます。

要約(オリジナル)

Hyperbolic embeddings have demonstrated their effectiveness in capturing measures of uncertainty and hierarchical relationships across various deep-learning tasks, including image segmentation and active learning. However, their application in modern vision-language models (VLMs) has been limited. A notable exception is MERU, which leverages the hierarchical properties of hyperbolic space in the CLIP ViT-large model, consisting of hundreds of millions parameters. In our work, we address the challenges of scaling multi-modal hyperbolic models by orders of magnitude in terms of parameters (billions) and training complexity using the BLIP-2 architecture. Although hyperbolic embeddings offer potential insights into uncertainty not present in Euclidean embeddings, our analysis reveals that scaling these models is particularly difficult. We propose a novel training strategy for a hyperbolic version of BLIP-2, which allows to achieve comparable performance to its Euclidean counterpart, while maintaining stability throughout the training process and showing a meaningful indication of uncertainty with each embedding.

arxiv情報

著者 Paolo Mandica,Luca Franco,Konstantinos Kallidromitis,Suzanne Petryk,Fabio Galasso
発行日 2024-08-09 14:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク