See, Say, and Segment: Teaching LMMs to Overcome False Premises

要約

現在のオープンソースの大規模マルチモーダル モデル (LMM) は、オープン語彙言語の基礎付けやセグメンテーションなどのタスクには優れていますが、実際には画像に存在しないものの存在をクエリが暗示する場合、誤った前提の下で問題が発生する可能性があります。
LMM を微調整して画像をセグメント化する既存の方法では、物体が存在するかどうかを確実に判断 (「見る」) し、人間と自然に対話する (「言う」) 能力が大幅に低下し、これは壊滅的な忘却の一形態であることが観察されています。
この研究では、LMM がこのタスクを解決し、以前のスキルの致命的な忘れを回避するためのカスケードおよび共同トレーニングのアプローチを提案します。
結果として得られるモデルは、画像内にオブジェクトが存在するかどうかを検出することで「見る」ことができ、存在しない場合にはユーザーに伝えることで「言う」ことができ、代替クエリを提案するかクエリ内の意味論的エラーを修正し、最後にマスクを出力することで「セグメント化」することができます。
必要なオブジェクトが存在する場合。
さらに、既存の RefCOCO(+/g) 参照セグメンテーション データセット (FP-RefCOCO(+/g) と呼ぶ) の拡張である、新しい False Premise Correction ベンチマーク データセットを導入します。
結果は、私たちの方法が既存のアプローチよりも最大 55% 優れて誤った前提を検出するだけでなく、誤った前提条件下では相対的な cIOU がベースラインと比較して 31% 以上向上し、最大 67% の有効と判断される自然言語フィードバックを生成することを示しています。
時間。

要約(オリジナル)

Current open-source Large Multimodal Models (LMMs) excel at tasks such as open-vocabulary language grounding and segmentation but can suffer under false premises when queries imply the existence of something that is not actually present in the image. We observe that existing methods that fine-tune an LMM to segment images significantly degrade their ability to reliably determine (‘see’) if an object is present and to interact naturally with humans (‘say’), a form of catastrophic forgetting. In this work, we propose a cascading and joint training approach for LMMs to solve this task, avoiding catastrophic forgetting of previous skills. Our resulting model can ‘see’ by detecting whether objects are present in an image, ‘say’ by telling the user if they are not, proposing alternative queries or correcting semantic errors in the query, and finally ‘segment’ by outputting the mask of the desired objects if they exist. Additionally, we introduce a novel False Premise Correction benchmark dataset, an extension of existing RefCOCO(+/g) referring segmentation datasets (which we call FP-RefCOCO(+/g)). The results show that our method not only detects false premises up to 55% better than existing approaches, but under false premise conditions produces relative cIOU improvements of more than 31% over baselines, and produces natural language feedback judged helpful up to 67% of the time.

arxiv情報

著者 Tsung-Han Wu,Giscard Biamby,David Chan,Lisa Dunlap,Ritwik Gupta,Xudong Wang,Joseph E. Gonzalez,Trevor Darrell
発行日 2023-12-13 18:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク