Abstracted Gaussian Prototypes for One-Shot Concept Learning

要約

オムニグロット チャレンジからインスピレーションを得たワンショット学習に基づいて、視覚概念の高レベル表現をエンコードするクラスターベースの生成画像セグメンテーション フレームワークを導入します。
混合ガウス モデル (GMM) の各コンポーネントの推論されたパラメーターは、視覚的な概念の異なるトポロジのサブパートを表します。
これらのパラメーターから新しいデータをサンプリングすると、各概念のより堅牢なプロトタイプ、つまり抽象化ガウス プロトタイプ (AGP) を構築するための拡張サブパーツが生成されます。
このフレームワークは、認知にインスピレーションを得た類似性メトリックを使用してワンショット分類タスクに対処し、変分オートエンコーダー (VAE) を使用して新しいクラス バリアントを生成する新しい AGP-VAE パイプラインを通じてワンショット生成タスクに対処します。
人間の審査員による結果は、生成パイプラインが、人間が作成したものとほぼ区別できない視覚概念の新しい例とクラスを生成することを明らかにしています。
提案されたフレームワークは、印象的な分類精度をもたらしますが、最先端ではありません。
したがって、貢献は 2 つあります。1) このシステムは、理論的および計算上の複雑さが独特に低く、既存のアプローチが事前トレーニングまたは知識エンジニアリングに大きく依存しているのと比較して、完全にスタンドアロン方式で動作します。
2) 競合するニューラル ネットワーク モデルとは対照的に、AGP アプローチは、オムニグロットの課題で強調されたタスク能力の幅広さ (つまり、生成タスクでの成功したパフォーマンス) の重要性に取り組んでいます。
これら 2 つの点は、学習/推論システムが文字通り単一の例に基づいて実行可能で堅牢かつ柔軟な概念をどのように生み出すことができるかの理解を進める上で重要です。

要約(オリジナル)

We introduce a cluster-based generative image segmentation framework to encode higher-level representations of visual concepts based on one-shot learning inspired by the Omniglot Challenge. The inferred parameters of each component of a Gaussian Mixture Model (GMM) represent a distinct topological subpart of a visual concept. Sampling new data from these parameters generates augmented subparts to build a more robust prototype for each concept, i.e., the Abstracted Gaussian Prototype (AGP). This framework addresses one-shot classification tasks using a cognitively-inspired similarity metric and addresses one-shot generative tasks through a novel AGP-VAE pipeline employing variational autoencoders (VAEs) to generate new class variants. Results from human judges reveal that the generative pipeline produces novel examples and classes of visual concepts that are broadly indistinguishable from those made by humans. The proposed framework leads to impressive but not state-of-the-art classification accuracy; thus, the contribution is two-fold: 1) the system is uniquely low in theoretical and computational complexity and operates in a completely standalone manner compared while existing approaches draw heavily on pre-training or knowledge engineering; and 2) in contrast with competing neural network models, the AGP approach addresses the importance of breadth of task capability emphasized in the Omniglot challenge (i.e., successful performance on generative tasks). These two points are critical as we advance toward an understanding of how learning/reasoning systems can produce viable, robust, and flexible concepts based on literally nothing more than a single example.

arxiv情報

著者 Chelsea Zou,Kenneth J. Kurtz
発行日 2024-08-30 12:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク