Referring Image Matting

要約

画像マットとは、画像内の正確な前景を抽出することです。
現在の自動方法では、画像内のすべての顕著なオブジェクトを無差別に抽出する傾向があります。
この論文では、与えられた自然言語の記述に最もよく一致する特定のオブジェクトの細心のアルファマットを抽出することを参照して、参照画像マット(RIM)という名前の新しいタスクを提案します。
ただし、一般的な視覚的接地方法はすべてセグメンテーションレベルに制限されています。これは、おそらくRIM用の高品質のデータセットが不足しているためです。
ギャップを埋めるために、柔軟なロジックと再ラベル付けされた多様な属性を備えた現在の公共の高品質マット前景の上に合成画像を生成する包括的な画像合成および表現生成エンジンを設計することにより、最初の大規模で挑戦的なデータセットRefMatteを確立します。
RefMatteは、230のオブジェクトカテゴリ、47,500の画像、118,749の式領域エンティティ、および474,996の式で構成されており、将来さらに簡単に拡張できます。
これに加えて、RIMモデルの一般化をさらに評価するために、100個の自然画像で構成される手動で生成されたフレーズ注釈を使用して実際のテストセットを構築します。
最初に、プロンプトベースと式ベースの2つの設定でRIMのタスクを定義し、次に、画像マットの特定のモデル設計とともにいくつかの代表的な方法をベンチマークします。
結果は、既存の方法の限界と可能な解決策についての経験的な洞察を提供します。
新しいタスクRIMとRefMatteデータセットは、この分野での新しい研究の方向性を開き、将来の研究を促進すると信じています。
データセットとコードは、https://github.com/JizhiziLi/RIMで公開されます。

要約(オリジナル)

Image matting refers to extracting the accurate foregrounds in the image. Current automatic methods tend to extract all the salient objects in the image indiscriminately. In this paper, we propose a new task named Referring Image Matting (RIM), referring to extracting the meticulous alpha matte of the specific object that can best match the given natural language description. However, prevalent visual grounding methods are all limited to the segmentation level, probably due to the lack of high-quality datasets for RIM. To fill the gap, we establish the first large-scale challenging dataset RefMatte by designing a comprehensive image composition and expression generation engine to produce synthetic images on top of current public high-quality matting foregrounds with flexible logics and re-labelled diverse attributes. RefMatte consists of 230 object categories, 47,500 images, 118,749 expression-region entities, and 474,996 expressions, which can be further extended easily in the future. Besides this, we also construct a real-world test set with manually generated phrase annotations consisting of 100 natural images to further evaluate the generalization of RIM models. We first define the task of RIM in two settings, i.e., prompt-based and expression-based, and then benchmark several representative methods together with specific model designs for image matting. The results provide empirical insights into the limitations of existing methods as well as possible solutions. We believe the new task RIM along with the RefMatte dataset will open new research directions in this area and facilitate future studies. The dataset and code will be made publicly available at https://github.com/JizhiziLi/RIM.

arxiv情報

著者 Jizhizi Li,Jing Zhang,Dacheng Tao
発行日 2022-06-10 14:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク