要約
事前トレーニングされた言語モデルからのブートストラップは、画像キャプションや視覚的な質問応答などのタスク用のビジョン言語モデル (VLM) を構築するための効率的なアプローチであることが証明されています。
ただし、これらのモデルの出力が、特定の回答に対するユーザーの理論的根拠と一致することはほとんどありません。
この調整を改善し、常識的な理由を強化するために、私たちは機械生成データと人間の対話に基づいた調整パラダイムを提案します。
私たちの ILLUME は次のループを実行します。画像、質問、回答のプロンプトが与えられると、VLM が複数の根拠候補をサンプリングし、人間の批評家が好みの選択を通じてフィードバックを提供し、微調整に使用されます。
このループによりトレーニング データが増加し、人間の意図に沿った VLM の合理化機能が徐々に構築されます。
私たちの徹底的な実験により、ILLUME は標準の教師付き微調整に匹敵し、使用するトレーニング データが大幅に少なくなり、最小限のフィードバックのみが必要であることが実証されました。
要約(オリジナル)
Bootstrapping from pre-trained language models has been proven to be an efficient approach for building vision-language models (VLM) for tasks such as image captioning or visual question answering. However, outputs of these models rarely align with user’s rationales for specific answers. In order to improve this alignment and reinforce commonsense reasons, we propose a tuning paradigm based on human interactions with machine-generated data. Our ILLUME executes the following loop: Given an image-question-answer prompt, the VLM samples multiple candidate rationales, and a human critic provides feedback via preference selection, used for fine-tuning. This loop increases the training data and gradually carves out the VLM’s rationalization capabilities that are aligned with human intent. Our exhaustive experiments demonstrate that ILLUME is competitive with standard supervised finetuning while using significantly fewer training data and only requiring minimal feedback.
arxiv情報
著者 | Manuel Brack,Patrick Schramowski,Björn Deiseroth,Kristian Kersting |
発行日 | 2023-05-31 15:13:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google