Analogy-Forming Transformers for Few-Shot 3D Parsing

要約

私たちは、構造化されたラベル付き 3D シーンのコレクション内でドメイン知識を明示的にエンコードするモデルである Analological Networks をモデル パラメーターとして暗黙的に示し、シーンをパーツ セグメントに直接マッピングする代わりに、類推的に 3D オブジェクト シーンをセグメント化します。
私たちのモデルは、まずメモリから関連シーンとそれに対応するパーツ構造を取得し、次にエンドツーエンドの学習可能な変調メカニズムを介して、入力シーンの類似パーツ構造を予測します。
複数の取得された記憶を条件付けすることにより、取得された記憶全体の部分を混合および一致させる構造の構成が予測されます。
Analogical Networks では、ワンショット、少数ショット、または多数ショットの学習が、単一、少数、または多数のメモリ見本から取得されたかどうかに関係なく、適切な記憶セットを条件付けし、類似した解析を推論することによって均一に処理されます。
私たちは、Analogical Networks が、多数ショット設定では最先端の 3D セグメンテーション トランスフォーマーと競合し、少数ショット設定ではメタ学習や少数ショット学習の既存のパラダイムと同様に、それらを上回るパフォーマンスを示すことを示します。
Analical Networks は、重みを更新せずにメモリを拡張するだけで、新しいオブジェクト カテゴリのインスタンスをセグメント化することに成功しました。
私たちのコードとモデルは、プロジェクト Web ページ http://analogicalnets.github.io/ で公開されています。

要約(オリジナル)

We present Analogical Networks, a model that encodes domain knowledge explicitly, in a collection of structured labelled 3D scenes, in addition to implicitly, as model parameters, and segments 3D object scenes with analogical reasoning: instead of mapping a scene to part segments directly, our model first retrieves related scenes from memory and their corresponding part structures, and then predicts analogous part structures for the input scene, via an end-to-end learnable modulation mechanism. By conditioning on more than one retrieved memories, compositions of structures are predicted, that mix and match parts across the retrieved memories. One-shot, few-shot or many-shot learning are treated uniformly in Analogical Networks, by conditioning on the appropriate set of memories, whether taken from a single, few or many memory exemplars, and inferring analogous parses. We show Analogical Networks are competitive with state-of-the-art 3D segmentation transformers in many-shot settings, and outperform them, as well as existing paradigms of meta-learning and few-shot learning, in few-shot settings. Analogical Networks successfully segment instances of novel object categories simply by expanding their memory, without any weight updates. Our code and models are publicly available in the project webpage: http://analogicalnets.github.io/.

arxiv情報

著者 Nikolaos Gkanatsios,Mayank Singh,Zhaoyuan Fang,Shubham Tulsiani,Katerina Fragkiadaki
発行日 2023-05-30 16:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク