要約
視覚と言語の統合の領域では、精選された豊富なデータセットが不足しているため、詳細な画像キャプションを生成することは大きな課題となります。
この研究では、標準的な商用 GPU で LoRa メソッドを使用して BLIP-2 モデルを微調整することにより、Querying Transformers を活用する新しいメソッドである PixLore を紹介します。
次のアプローチでは、ChatGPT によって結合および強化された最先端のコンピューター ビジョン モデルから慎重に組み立てられたデータセットでのトレーニングが含まれており、より小規模なモデルのアンサンブルで複雑な画像の理解を達成できるかどうかという問題に取り組んでいます。
知識のつなぎ目として。
GPT-4 や Google Bard などの主要モデルとの比較評価では、PixLore-2.7B はパラメータが大幅に少ないにもかかわらず、評価の半分以上で既存の最先端モデルよりも高く評価されていることがわかります。
正確には、PixLore は Bard と BLIP-2 よりも優れていますが、画像キャプションのタスクでは PixLore よりも約 35.18% スコアが低く、27.98% スコアが低くなります。
この研究は、画期的なアプローチを提示するだけでなく、小規模モデルのパフォーマンスを向上させる上で、適切に厳選されたデータセットの重要性も強調しています。
要約(オリジナル)
In the domain of vision-language integration, generating detailed image captions poses a significant challenge due to the lack of curated and rich datasets. This study introduces PixLore, a novel method that leverages Querying Transformers through the fine-tuning of the BLIP-2 model using the LoRa method on a standard commercial GPU. The followed approach, which involves training on a carefully assembled dataset from state-of-the-art Computer Vision models combined and augmented by ChatGPT, addresses the question of whether intricate image understanding can be achieved with an ensemble of smaller-scale models, referred to as Knowledge Stitching. Comparative evaluations against major models such as GPT-4 and Google Bard demonstrate that PixLore-2.7B, despite having considerably fewer parameters, is rated higher than the existing State-of-the-Art models in over half of the assessments. Precisely, PixLore outperform Bard and BLIP-2, which score approximately 35.18% and 27.98% lower than PixLore in the task of image captioning. This research not only presents a groundbreaking approach but also highlights the importance of well-curated datasets in enhancing the performance of smaller models.
arxiv情報
著者 | Diego Bonilla-Salvador,Marcelino Martínez-Sober,Joan Vila-Francés,Antonio José Serrano-López,Pablo Rodríguez-Belenguer,Fernando Mateo |
発行日 | 2024-10-23 14:47:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google