Referring Image Matting

要約

特定の前景オブジェクトを抽出するためにユーザー定義のスクリブル/トライマップを必要とするか、画像内のすべての前景オブジェクトを無差別に直接抽出する従来の画像マッティングとは異なり、このペーパーでは参照画像マッティング (RIM) という新しいタスクを紹介します。
RIM は、与えられた自然言語の記述に最もよく一致する特定のオブジェクトの細心の注意を払ったアルファ マットを抽出することを目的としています。これにより、イメージ マットのより自然でシンプルな指示が可能になります。
まず、包括的な画像合成および表現生成エンジンを設計して、公開データセットに基づいてさまざまなテキスト属性とともに高品質の画像を自動的に生成することにより、大規模で挑戦的なデータセット RefMatte を確立します。
RefMatte は、230 のオブジェクト カテゴリ、47,500 の画像、118,749 の表現領域エンティティ、および 474,996 の表現で構成されています。
さらに、100 個の高解像度の自然画像を使用して現実世界のテスト セットを構築し、複雑なフレーズに手動で注釈を付けて、RIM メソッドのドメイン外一般化機能を評価します。
さらに、コンテキスト埋め込みプロンプト、テキスト駆動型のセマンティック ポップアップ、およびマルチレベルの詳細エクストラクタを含む、RIM 用の新しいベースライン メソッド CLIPMat を提示します。
キーワード設定と表現設定の両方での RefMatte に関する広範な実験により、代表的な方法に対する CLIPMat の優位性が検証されました。
この研究が画像マッ​​ティングへの新たな洞察を提供し、より多くのフォローアップ研究を促進することを願っています.
データセット、コード、およびモデルは、https://github.com/JizhiziLi/RIM で公開されます。

要約(オリジナル)

Different from conventional image matting, which either requires user-defined scribbles/trimap to extract a specific foreground object or directly extracts all the foreground objects in the image indiscriminately, we introduce a new task named Referring Image Matting (RIM) in this paper. RIM aims to extract the meticulous alpha matte of the specific object that best matches the given natural language description, thus enabling a more natural and simpler instruction for image matting. First, we establish a large-scale challenging dataset RefMatte by designing a comprehensive image composition and expression generation engine to automatically produce high-quality images along with diverse text attributes based on public datasets. RefMatte consists of 230 object categories, 47,500 images, 118,749 expression-region entities, and 474,996 expressions. Additionally, we construct a real-world test set with 100 high-resolution natural images and manually annotate complex phrases to evaluate the out-of-domain generalization abilities of RIM methods. Furthermore, we present a novel baseline method CLIPMat for RIM, including a context-embedded prompt, a text-driven semantic pop-up, and a multi-level details extractor. Extensive experiments on RefMatte in both keyword and expression settings validate the superiority of CLIPMat over representative methods. We hope this work could provide novel insights into image matting and encourage more follow-up studies. The dataset, code, and models will be made public at https://github.com/JizhiziLi/RIM.

arxiv情報

著者 Jizhizi Li,Jing Zhang,Dacheng Tao
発行日 2022-11-29 13:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク