要約
最新のテキストからビジョンへの生成モデルは、生成されるシーンを説明するプロンプトの指定が不十分な場合に幻覚を起こすことがよくあります。
大規模言語モデル (LLM) では、幻覚を軽減するための一般的な戦略は、外部データベースから事実の知識を取得することです。
このような検索拡張戦略には、テキストからビジョンへのジェネレーターを強化する大きな可能性がありますが、既存の静的なトップ K 検索手法では知識プールを 1 回探索するため、高品質の生成に必要なより広範なコンテキストが欠落しています。
さらに、LLM は、大規模なトレーニング中に学習した豊富な世界知識 (パラメトリック知識) を内部に保有しており、外部からのデータ取得の必要性を軽減できます。
この論文では、外部知識とパラメトリック知識の補完的な強みを活用して、ジェネレーターが信頼性の高いビジュアル コンテンツを作成できるようにするフレームワークである Contextual Knowledge Pursuit (CKPT) を提案します。
特定のプロンプトを改善するために外部データベースから事実を 1 回限り取得する代わりに、CKPT は、(1) LLM を使用して、外部の知識を求めるか、LLM パラメトリック知識から記述を自己引き出すかを決定します。(2) 知識の追求
(3) 収集された事実コンテキストを迅速に強化するための知識アグリゲーター、(4) より豊富なプロンプトで視覚的合成を改善するためのフィルター処理された微調整目標。
私たちは、希少なオブジェクトと日常のシナリオのデータセットに対する複数のテキスト駆動の生成タスク (画像、3D レンダリング、およびビデオ) にわたって CKPT を評価します。
私たちの結果は、CKPT がさまざまなビジュアル ドメインにわたって忠実で意味論的に豊富なコンテンツを生成でき、テキストからビジョンへの生成モデルのゼロショット合成とフィルタリングされた微調整のための有望なデータ ソースを提供できることを示しています。
要約(オリジナル)
Modern text-to-vision generative models often hallucinate when the prompt describing the scene to be generated is underspecified. In large language models (LLMs), a prevalent strategy to reduce hallucinations is to retrieve factual knowledge from an external database. While such retrieval augmentation strategies have great potential to enhance text-to-vision generators, existing static top-K retrieval methods explore the knowledge pool once, missing the broader context necessary for high-quality generation. Furthermore, LLMs internally possess rich world knowledge learned during large-scale training (parametric knowledge) that could mitigate the need for external data retrieval. This paper proposes Contextual Knowledge Pursuit (CKPT), a framework that leverages the complementary strengths of external and parametric knowledge to help generators produce reliable visual content. Instead of the one-time retrieval of facts from an external database to improve a given prompt, CKPT uses (1) an LLM to decide whether to seek external knowledge or to self-elicit descriptions from LLM parametric knowledge, (2) a knowledge pursuit process to contextually seek and sequentially gather most relevant facts, (3) a knowledge aggregator for prompt enhancement with the gathered fact context, and (4) a filtered fine-tuning objective to improve visual synthesis with richer prompts. We evaluate CKPT across multiple text-driven generative tasks (image, 3D rendering, and video) on datasets of rare objects and daily scenarios. Our results show that CKPT is capable of generating faithful and semantically rich content across diverse visual domains, offering a promising data source for zero-shot synthesis and filtered fine-tuning of text-to-vision generative models.
arxiv情報
著者 | Jinqi Luo,Kwan Ho Ryan Chan,Dimitris Dimos,René Vidal |
発行日 | 2024-11-05 16:31:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google