NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds

要約

人工エージェントが変化する環境でタスクを正常に実行するには、目新しさを検出して適応できる必要があります。
ただし、視覚的ノベルティ検出の研究は、多くの場合、元はオブジェクト分類を目的とした CIFAR-10 などの転用されたデータセットでのみ評価されます。この場合、画像は 1 つの明確で中心にあるオブジェクトに焦点を合わせます。
オープン ワールドの複雑なシーンをナビゲートするという課題を表すには、新しいベンチマークが必要です。
私たちの新しい NovelCraft データセットには、変更された Minecraft 環境内でポゴスティックの組み立てタスクを完了するエージェントが見た画像と象徴的な世界状態のマルチモーダル エピソード データが含まれています。
一部のエピソードでは、複雑な 3D シーン内に新しいオブジェクトを挿入します。これはゲームプレイに影響を与え、さまざまなサイズと位置で表示される可能性があります。
私たちのビジュアルノベルティ検出ベンチマークは、一般的な曲線下面積指標で最高ランクの方法が、誤検知の制御が最も重要な場合、より単純な代替方法よりも優れている可能性があることを発見しました.
さらにマルチモーダルなノベルティ検出実験は、視覚情報と記号情報の両方を融合する方法が、検出までの時間と全体的な識別を改善できることを示唆しています。
最後に、最近の一般化されたカテゴリ発見方法の評価は、複雑なシーンでの新しい不均衡なカテゴリへの適応が、エキサイティングな未解決の問題のままであることを示唆しています。

要約(オリジナル)

In order for artificial agents to successfully perform tasks in changing environments, they must be able to both detect and adapt to novelty. However, visual novelty detection research often only evaluates on repurposed datasets such as CIFAR-10 originally intended for object classification, where images focus on one distinct, well-centered object. New benchmarks are needed to represent the challenges of navigating the complex scenes of an open world. Our new NovelCraft dataset contains multimodal episodic data of the images and symbolic world-states seen by an agent completing a pogo stick assembly task within a modified Minecraft environment. In some episodes, we insert novel objects within the complex 3D scene that may impact gameplay and appear in a variety of sizes and positions. Our visual novelty detection benchmark finds that methods that rank best on popular area-under-the-curve metrics may be outperformed by simpler alternatives when controlling false positives matters most. Further multi-modal novelty detection experiments suggest that methods that fuse both visual and symbolic information can improve time until detection as well as overall discrimination. Finally, our evaluation of recent generalized category discovery methods suggests that adapting to new imbalanced categories in complex scenes remains an exciting open problem.

arxiv情報

著者 Patrick Feeney,Sarah Schneider,Panagiotis Lymperopoulos,Liping Liu,Matthias Scheutz,Michael C. Hughes
発行日 2023-03-15 14:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク