LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

要約

長いテキストを理解することは実際には大きな要求ですが、ほとんどの言語画像事前トレーニング (LIP) モデルでは実現できません。
この研究では、このような問題を引き起こす主な理由は、トレーニング画像が通常短いキャプションと組み合わされており、特定のトークンが顕著なトークンによって簡単に隠れてしまうためであることを経験的に確認しました。
この問題に対して、私たちの最初の試みは、長いキャプションでデータを再ラベルすることですが、それを直接学習すると、短いテキストを理解する際のパフォーマンスの低下につながる可能性があります (画像分類タスクなど)。
次に、コーナー トークンを組み込んで多様なテキスト情報を集約した後、モデルが本来の短文理解レベルに追いつきながら、長文理解能力を大幅に強化できるようにしました。
さらに、モデルが長いキャプションから継続的に恩恵を受けることができるかどうかを調査し、パフォーマンスと効率の間に明確なトレードオフがあることに気付きました。
最後に、100M の長いキャプション指向のテキストと画像のペアで構成される自己構築された大規模データセットを使用して、アプローチの有効性を検証します。
注目に値するのは、長いテキストの画像検索のタスクにおいて、長いキャプションを使用する競合他社に 11.1% の向上 (つまり、72.62% から 83.72% へ) で勝ったことです。
再現性とさらなる研究を促進するために、コード、モデル、および新しいデータセットをリリースします。
プロジェクト ページは https://wuw2019.github.io/lotlip で利用できます。

要約(オリジナル)

Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lotlip.

arxiv情報

著者 Wei Wu,Kecheng Zheng,Shuailei Ma,Fan Lu,Yuxin Guo,Yifei Zhang,Wei Chen,Qingpei Guo,Yujun Shen,Zheng-Jun Zha
発行日 2024-10-07 17:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク