Learning to Edit Visual Programs with Self-Supervision

要約

ビジュアルプログラムの編集方法を学習するシステムを設計します。
私たちの編集ネットワークは、完全な入力プログラムと視覚的なターゲットを使用します。
この入力から、ターゲットとの類似性を向上させるために入力プログラムに適用できるローカル編集操作を予測するというタスクをネットワークに与えます。
プログラムの注釈がないドメインにこのスキームを適用するために、プログラム全体をワンショットで予測するネットワークとともに、この編集ネットワークをブートストラップ微調整ループに統合する自己教師あり学習アプローチを開発します。
私たちの共同微調整スキームは、ワンショット モデルから母集団を初期化し、編集ネットワークでこの母集団のメンバーを進化させる推論手順と組み合わせると、より正確なビジュアル プログラムを推論するのに役立ちます。
複数のドメインにわたって、私たちの方法をワンショット モデルのみを使用する代替方法と実験的に比較したところ、同じ検索時間予算の下でも、編集ベースのパラダイムが大きな利点をもたらすことがわかりました。

要約(オリジナル)

We design a system that learns how to edit visual programs. Our edit network consumes a complete input program and a visual target. From this input, we task our network with predicting a local edit operation that could be applied to the input program to improve its similarity to the target. In order to apply this scheme for domains that lack program annotations, we develop a self-supervised learning approach that integrates this edit network into a bootstrapped finetuning loop along with a network that predicts entire programs in one-shot. Our joint finetuning scheme, when coupled with an inference procedure that initializes a population from the one-shot model and evolves members of this population with the edit network, helps to infer more accurate visual programs. Over multiple domains, we experimentally compare our method against the alternative of using only the one-shot model, and find that even under equal search-time budgets, our editing-based paradigm provides significant advantages.

arxiv情報

著者 R. Kenny Jones,Renhao Zhang,Aditya Ganeshan,Daniel Ritchie
発行日 2024-06-04 14:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク