Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis

要約

意味論的な詳細が不十分な不正確なプロンプトによる幻覚や不忠実な合成は、マルチモーダル生成モデルで広く観察されています。
複数のモダリティを調整する一般的な戦略は、多数の注釈付きテキストと画像のペアを使用してジェネレーターを微調整することです。
ただし、このような手順は多大な労力とリソースを浪費します。
私たちが尋ねる重要な質問は、広範なテキストと画像のペアの注釈を超えて、テキスト駆動型生成モデルの品質と忠実性を向上させることができるかということです。
この問題に対処するために、私たちは、ジェネレーターが信頼性の高いビジュアル コンテンツを生成できるように外部の知識を繰り返し組み込むゼロショット フレームワークである、Knowledge Pursuit Prompting (KPP) を提案します。
一般的なプロンプトを処理するためにジェネレーターをトレーニングする代わりに、KPP は再帰的な知識クエリ プロセスを採用して知識ベースから有益な外部事実を収集し、取得した知識を圧縮してプロンプトを改善するよう言語モデルに指示し、視覚的な合成にテキスト駆動のジェネレーターを利用します。
プロセス全体はゼロショットであり、生成モデルのアーキテクチャやパラメーターにアクセスする必要はありません。
さまざまなドメインのデータセット上の複数のテキスト駆動の生成タスク (画像、3D レンダリング、ビデオ) にわたってフレームワークを評価します。
さらに、さまざまな基礎モデル ベースと命令を通じて、KPP の拡張性と適応性を実証します。
私たちの結果は、KPP が多様な視覚領域にわたって忠実で意味的に豊富なコンテンツを生成でき、マルチモーダル生成モデルを改善するための有望なソリューションを提供することを示しています。

要約(オリジナル)

Hallucinations and unfaithful synthesis due to inaccurate prompts with insufficient semantic details are widely observed in multimodal generative models. A prevalent strategy to align multiple modalities is to fine-tune the generator with a large number of annotated text-image pairs. However, such a procedure is labor-consuming and resource-draining. The key question we ask is: can we enhance the quality and faithfulness of text-driven generative models beyond extensive text-image pair annotations? To address this question, we propose Knowledge Pursuit Prompting (KPP), a zero-shot framework that iteratively incorporates external knowledge to help generators produce reliable visual content. Instead of training generators to handle generic prompts, KPP employs a recursive knowledge query process to gather informative external facts from the knowledge base, instructs a language model to compress the acquired knowledge for prompt refinement, and utilizes text-driven generators for visual synthesis. The entire process is zero-shot, without accessing the architectures and parameters of generative models. We evaluate the framework across multiple text-driven generative tasks (image, 3D rendering, and video) on datasets of different domains. We further demonstrate the extensibility and adaptability of KPP through varying foundation model bases and instructions. Our results show that KPP is capable of generating faithful and semantically rich content across diverse visual domains, offering a promising solution to improve multimodal generative models.

arxiv情報

著者 Jinqi Luo,Kwan Ho Ryan Chan,Dimitris Dimos,René Vidal
発行日 2023-11-29 18:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク