Prompt Highlighter: Interactive Control for Multi-Modal LLMs

要約

この研究は、マルチモーダル LLM (LLM および VLM) 推論の重要な側面、つまり明示的な制御可能なテキスト生成を対象としています。
マルチモーダル LLM は、セマンティック生成機能によりマルチモーダリティの理解を強化しますが、その自己回帰生成の性質により、説明可能性が低くなり、プロンプト コンテンツへの依存度が高くなります。
プロンプトの形式を操作すると出力が改善される可能性がありますが、タスクごとに具体的で正確なプロンプトを設計するのは困難で非効率的な場合があります。
この問題に取り組むために、新しい推論方法であるプロンプト ハイライターを導入しました。これにより、ユーザーは特定のプロンプト スパンを強調表示して、生成中にフォーカスを対話的に制御できるようになります。
分類子を使用しない拡散ガイダンスを動機として、強調表示されたトークンに基づいて規則的で無条件のコンテキスト ペアを形成し、モデル内の自己回帰生成が分類子を使用しない方法で誘導できることを実証します。
特に、推論中に、注目の重みを介して強調表示されたトークンを使用してモデルをガイドすると、より望ましい出力が得られることがわかります。
私たちのアプローチは現在の LLM および VLM と互換性があり、トレーニングなしで印象的なカスタマイズされた生成結果を達成します。
実験により、入力コンテキストに焦点を当て、信頼性の高いコンテンツを生成する際のその有効性が確認されています。
LLaVA-v1.5 で調整せずに、私たちの方法は MMBench テストで 69.5、MME 認識で 1552.5 を確保しました。
コードは https://github.com/dvlab-research/Prompt-Highlighter/ から入手できます。

要約(オリジナル)

This study targets a critical aspect of multi-modal LLMs’ (LLMs&VLMs) inference: explicit controllable text generation. Multi-modal LLMs empower multi-modality understanding with the capability of semantic generation yet bring less explainability and heavier reliance on prompt contents due to their autoregressive generative nature. While manipulating prompt formats could improve outputs, designing specific and precise prompts per task can be challenging and ineffective. To tackle this issue, we introduce a novel inference method, Prompt Highlighter, which enables users to highlight specific prompt spans to interactively control the focus during generation. Motivated by the classifier-free diffusion guidance, we form regular and unconditional context pairs based on highlighted tokens, demonstrating that the autoregressive generation in models can be guided in a classifier-free way. Notably, we find that, during inference, guiding the models with highlighted tokens through the attention weights leads to more desired outputs. Our approach is compatible with current LLMs and VLMs, achieving impressive customized generation results without training. Experiments confirm its effectiveness in focusing on input contexts and generating reliable content. Without tuning on LLaVA-v1.5, our method secured 69.5 in the MMBench test and 1552.5 in MME-perception. The code is available at: https://github.com/dvlab-research/Prompt-Highlighter/

arxiv情報

著者 Yuechen Zhang,Shengju Qian,Bohao Peng,Shu Liu,Jiaya Jia
発行日 2023-12-07 13:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク