要約
知覚入力から汎用表現を学習することは、人間の知性の特徴です。
たとえば、人々は、これらのタスクを同じ一般的な基礎となるプロセスのさまざまなインスタンス化、つまりさまざまな形式のペンストロークの構成配置として特徴付けることによって、数字や文字を書き出すことができ、落書きを描くことさえできます。
重要なのは、この共有プロセスのために、あるタスク、たとえば書くことを学ぶことは、別のタスク、たとえば描くことで合理的な能力を意味します。
このような汎用表現を学習できるストロークベースの描画の神経シンボリック生成モデルであるDrawingoutof Distribution(DooD)を紹介します。
以前の作業とは対照的に、DooDは画像を直接操作し、監視や高価なテスト時間の推論を必要とせず、解釈可能性と一般化の両方をより適切に可能にするシンボリックストロークモデルを使用して教師なし償却推論を実行します。
DooDを、データとタスクの両方にわたって一般化する能力について評価します。
最初に、5つの異なるデータセットにわたって、あるデータセット(MNISTなど)から別のデータセット(Quickdrawなど)へのゼロショット転送を実行し、DooDが異なるベースラインを明らかに上回っていることを示します。
学習した表現の分析は、シンボリックストロークモデルを採用することの利点をさらに強調しています。
次に、Omniglotチャレンジタスクのサブセットを採用し、新しいエグザンプラを生成する能力(無条件と条件付きの両方)を評価し、ワンショット分類を実行して、DooDが最先端に一致することを示します。
まとめると、DooDが実際にデータとタスクの両方で汎用表現をキャプチャし、一般的で堅牢な概念学習システムの構築に向けてさらに一歩前進することを示します。
要約(オリジナル)
Learning general-purpose representations from perceptual inputs is a hallmark of human intelligence. For example, people can write out numbers or characters, or even draw doodles, by characterizing these tasks as different instantiations of the same generic underlying process — compositional arrangements of different forms of pen strokes. Crucially, learning to do one task, say writing, implies reasonable competence at another, say drawing, on account of this shared process. We present Drawing out of Distribution (DooD), a neuro-symbolic generative model of stroke-based drawing that can learn such general-purpose representations. In contrast to prior work, DooD operates directly on images, requires no supervision or expensive test-time inference, and performs unsupervised amortised inference with a symbolic stroke model that better enables both interpretability and generalization. We evaluate DooD on its ability to generalise across both data and tasks. We first perform zero-shot transfer from one dataset (e.g. MNIST) to another (e.g. Quickdraw), across five different datasets, and show that DooD clearly outperforms different baselines. An analysis of the learnt representations further highlights the benefits of adopting a symbolic stroke model. We then adopt a subset of the Omniglot challenge tasks, and evaluate its ability to generate new exemplars (both unconditionally and conditionally), and perform one-shot classification, showing that DooD matches the state of the art. Taken together, we demonstrate that DooD does indeed capture general-purpose representations across both data and task, and takes a further step towards building general and robust concept-learning systems.
arxiv情報
著者 | Yichao Liang,Joshua B. Tenenbaum,Tuan Anh Le,N. Siddharth |
発行日 | 2022-06-03 21:40:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google