Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation

要約

プロンプト可能なセグメンテーションでは通常、目的の各オブジェクトのセグメンテーションをガイドするためにインスタンス固有の手動プロンプトが必要です。
このような必要性を最小限に抑えるために、タスク汎用プロンプト可能セグメンテーションが導入されました。これは、単一のタスク汎用プロンプトを使用して、同じタスク内の異なるオブジェクトのさまざまな画像をセグメント化します。
現在の方法では、マルチモーダル大規模言語モデル (MLLM) を使用して、タスク固有のプロンプトから詳細なインスタンス固有のプロンプトを推論し、セグメンテーションの精度を向上させています。
このセグメント化の有効性は、これらの派生プロンプトの精度に大きく依存します。
ただし、MLLM は推論中に幻覚に悩まされることが多く、その結果、不正確なプロンプトが表示されます。
既存の手法はモデルを改善するために幻覚を除去することに重点を置いていますが、MLLM 幻覚は個々の画像を超えた事前トレーニングされた大規模な知識を表すため、適切に活用すれば貴重な文脈上の洞察を明らかにできると私たちは主張します。
この論文では、幻覚を利用して画像からタスク関連情報をマイニングし、生成されたプロンプトの精度を高めるためにその精度を検証します。
具体的には、プロンプト ジェネレーターとマスク ジェネレーターを備えた反復プロンプト マスク サイクル生成フレームワーク (ProMaC) を導入します。プロンプト ジェネレーターは、マルチスケールの思考プロンプトの連鎖を使用し、最初はテスト画像上の拡張された文脈知識を抽出するための幻覚を探索します。
これらの幻覚は、インスタンス固有の正確なプロンプトを作成するために軽減され、マスク セマンティクスの調整によってタスク セマンティクスと一致するマスクを生成するようにマスク ジェネレーターに指示されます。
生成されたマスクにより、プロンプト ジェネレーターがタスクに関連する画像領域にさらに焦点を当て、無関係な幻覚が減少するように繰り返し誘導され、その結果、より良いプロンプトとマスクが生成されます。
5 つのベンチマークの実験により、ProMaC の有効性が実証されました。
コードは https://lwpyh.github.io/ProMaC/ にあります。

要約(オリジナル)

Promptable segmentation typically requires instance-specific manual prompts to guide the segmentation of each desired object. To minimize such a need, task-generic promptable segmentation has been introduced, which employs a single task-generic prompt to segment various images of different objects in the same task. Current methods use Multimodal Large Language Models (MLLMs) to reason detailed instance-specific prompts from a task-generic prompt for improving segmentation accuracy. The effectiveness of this segmentation heavily depends on the precision of these derived prompts. However, MLLMs often suffer hallucinations during reasoning, resulting in inaccurate prompting. While existing methods focus on eliminating hallucinations to improve a model, we argue that MLLM hallucinations can reveal valuable contextual insights when leveraged correctly, as they represent pre-trained large-scale knowledge beyond individual images. In this paper, we utilize hallucinations to mine task-related information from images and verify its accuracy for enhancing precision of the generated prompts. Specifically, we introduce an iterative Prompt-Mask Cycle generation framework (ProMaC) with a prompt generator and a mask generator.The prompt generator uses a multi-scale chain of thought prompting, initially exploring hallucinations for extracting extended contextual knowledge on a test image.These hallucinations are then reduced to formulate precise instance-specific prompts, directing the mask generator to produce masks that are consistent with task semantics by mask semantic alignment. The generated masks iteratively induce the prompt generator to focus more on task-relevant image areas and reduce irrelevant hallucinations, resulting jointly in better prompts and masks. Experiments on 5 benchmarks demonstrate the effectiveness of ProMaC. Code given in https://lwpyh.github.io/ProMaC/.

arxiv情報

著者 Jian Hu,Jiayi Lin,Junchi Yan,Shaogang Gong
発行日 2024-08-27 17:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク