A Generalist Framework for Panoptic Segmentation of Images and Videos


パノプティック セグメンテーションは、画像のすべてのピクセルにセマンティック ラベルとインスタンス ID ラベルを割り当てます。
インスタンス ID の順列も有効なソリューションであるため、タスクには高次元の 1 対多マッピングの学習が必要です。
タスクの誘導バイアスに依存することなく、パノプティック セグメンテーションを個別のデータ生成問題として定式化します。
アナログ ビットに基づく拡散モデルを使用して、シンプルで汎用的なアーキテクチャと損失関数を備えたパノプティック マスクをモデル化します。
過去の予測を条件付け信号として追加するだけで、私たちの方法は (ストリーミング設定で) ビデオをモデル化することができ、それによってオブジェクト インスタンスを自動的に追跡することを学習します。
大規模な実験により、私たちのジェネラリスト アプローチが、同様の設定で最先端の専門家の方法に匹敵するパフォーマンスを発揮できることを示しています。


Panoptic segmentation assigns semantic and instance ID labels to every pixel of an image. As permutations of instance IDs are also valid solutions, the task requires learning of high-dimensional one-to-many mapping. As a result, state-of-the-art approaches use customized architectures and task-specific loss functions. We formulate panoptic segmentation as a discrete data generation problem, without relying on inductive bias of the task. A diffusion model based on analog bits is used to model panoptic masks, with a simple, generic architecture and loss function. By simply adding past predictions as a conditioning signal, our method is capable of modeling video (in a streaming setting) and thereby learns to track object instances automatically. With extensive experiments, we demonstrate that our generalist approach can perform competitively to state-of-the-art specialist methods in similar settings.


著者 Ting Chen,Lala Li,Saurabh Saxena,Geoffrey Hinton,David J. Fleet
発行日 2022-10-12 16:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク