要約
最近、大規模マルチモーダル モデル (LMM) は、画像に関する指示が与えられた画像の視覚的な内容を理解する能力を実証しました。
大規模言語モデル (LLM) に基づいて構築された LMM は、画像とテキストの一貫したシーケンスが入力プロンプトとして与えられるコンテキスト内学習などの能力と特性も継承しています。
しかし、我々は、少数の支離滅裂な画像やテキスト記述によって LMM が誤解を招き、本来意図されたコンテキストではなく、ハイジャックされたコンテキストに関する偏った出力のみを生成するという、既製 LMM の新たな制限を特定しました。
これに対処するために、コンテキスト内の分布シフトに対する堅牢性に基づいて、GPT-4V を介して無関係なコンテキストを削除するプレフィルタリング方法を提案します。
さらに、ハイジャックされたビジュアルおよびテキストのコンテキストを、GPT-4V およびテキストから画像へのモデルを介して相関するコンテキストに置き換えることが、一貫した応答を生み出すのに役立つかどうかを調査します。
要約(オリジナル)
Recently, Large Multi-modal Models (LMMs) have demonstrated their ability to understand the visual contents of images given the instructions regarding the images. Built upon the Large Language Models (LLMs), LMMs also inherit their abilities and characteristics such as in-context learning where a coherent sequence of images and texts are given as the input prompt. However, we identify a new limitation of off-the-shelf LMMs where a small fraction of incoherent images or text descriptions mislead LMMs to only generate biased output about the hijacked context, not the originally intended context. To address this, we propose a pre-filtering method that removes irrelevant contexts via GPT-4V, based on its robustness towards distribution shift within the contexts. We further investigate whether replacing the hijacked visual and textual contexts with the correlated ones via GPT-4V and text-to-image models can help yield coherent responses.
arxiv情報
著者 | Joonhyun Jeong |
発行日 | 2024-05-13 10:42:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google