Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation

要約

最近では、CLIP や Stable Diffusion などの大規模なマルチモーダル モデルが、基礎とアプリケーションの両方で大きな成功を収めています。
ただし、これらのモデルのパラメーター サイズと計算要件が増大するにつれて、ユーザーが特定のタスクや好みに合わせてモデルをカスタマイズすることがより困難になります。
この研究では、特定の人間の好みのセットに合わせて以前のモデルを適応させ、取得または生成された画像をユーザーの好みに合わせるという問題に取り組みます。
私たちは Bradley-Terry 優先モデルを活用して、少ない例と最小限のコンピューティング リソースで元のモデルを効率的に微調整する高速適応方法を開発します。
このフレームワークの機能の広範な証拠は、報酬モデルとしての嗜好予測や生成タスクなど、マルチモーダルなテキストと画像の理解に関連するさまざまなドメインでの実験を通じて提供されます。

要約(オリジナル)

Recently, large multimodal models, such as CLIP and Stable Diffusion have experimented tremendous successes in both foundations and applications. However, as these models increase in parameter size and computational requirements, it becomes more challenging for users to personalize them for specific tasks or preferences. In this work, we address the problem of adapting the previous models towards sets of particular human preferences, aligning the retrieved or generated images with the preferences of the user. We leverage the Bradley-Terry preference model to develop a fast adaptation method that efficiently fine-tunes the original model, with few examples and with minimal computing resources. Extensive evidence of the capabilities of this framework is provided through experiments in different domains related to multimodal text and image understanding, including preference prediction as a reward model, and generation tasks.

arxiv情報

著者 Victor Gallego
発行日 2023-09-21 14:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク