要約
この研究は、スクリーンショットのキャプションタスクの効率的な調整方法を調査することを目的としています。
最近、画像のキャプション付けは大幅な進歩を遂げていますが、モバイル画面のキャプション付けタスクに関する研究は依然として比較的少ないです。
製品のスクリーンショット内のユーザーの行動を説明する現在のデータセットとユースケースは特に限られています。
その結果、スクリーンショットのキャプションタスク用に既存のモデルを微調整することにしました。
ただし、大規模な事前トレーニング済みモデルの微調整はリソースを大量に消費する可能性があり、画像キャプション モデルには膨大な数のパラメーターがあるため、かなりの時間、計算能力、ストレージが必要になります。
この課題に取り組むために、この研究では、モデル上の追加モジュールのみを調整する必要があるアダプター方法の組み合わせを提案します。
これらの手法はもともと視覚や言語のタスクのために設計されたものであり、私たちの目的は、スクリーンショットのキャプションにおける同様の課題に対処するためにそれらを適用することです。
画像キャプション モデルのパラメーターを凍結し、メソッドに関連付けられた重みのみをトレーニングすることにより、パラメーターの数を大幅に削減しながら、モデル全体の微調整に匹敵するパフォーマンスを達成できます。
この調査は、スクリーンショットのキャプション付けタスクのコンテキスト内でアダプターを組み合わせる有効性についての最初の包括的な調査を表しています。
この研究は、実験と分析を通じて、視覚言語モデルにおけるアダプターの適用に関する貴重な洞察を提供し、スクリーンショットのキャプションタスクのための効率的なチューニング技術の開発に貢献することを目的としています。
私たちの研究は https://github.com/RainYuGG/BLIP-Adapter で入手できます。
要約(オリジナル)
This study aims to explore efficient tuning methods for the screenshot captioning task. Recently, image captioning has seen significant advancements, but research in captioning tasks for mobile screens remains relatively scarce. Current datasets and use cases describing user behaviors within product screenshots are notably limited. Consequently, we sought to fine-tune pre-existing models for the screenshot captioning task. However, fine-tuning large pre-trained models can be resource-intensive, requiring considerable time, computational power, and storage due to the vast number of parameters in image captioning models. To tackle this challenge, this study proposes a combination of adapter methods, which necessitates tuning only the additional modules on the model. These methods are originally designed for vision or language tasks, and our intention is to apply them to address similar challenges in screenshot captioning. By freezing the parameters of the image caption models and training only the weights associated with the methods, performance comparable to fine-tuning the entire model can be achieved, while significantly reducing the number of parameters. This study represents the first comprehensive investigation into the effectiveness of combining adapters within the context of the screenshot captioning task. Through our experiments and analyses, this study aims to provide valuable insights into the application of adapters in vision-language models and contribute to the development of efficient tuning techniques for the screenshot captioning task. Our study is available at https://github.com/RainYuGG/BLIP-Adapter
arxiv情報
著者 | Ching-Yu Chiang,I-Hua Chang,Shih-Wei Liao |
発行日 | 2023-09-26 09:16:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google