Reasoning-Enhanced Object-Centric Learning for Videos

要約

オブジェクト中心学習は、複雑な視覚的シーンをより管理しやすいオブジェクト表現に分解し、物理世界に対する機械学習システムの理解と推論能力を強化することを目的としています。
最近、スロットベースのビデオ モデルは、オブジェクトのセグメント化と追跡において顕著な熟練を示していますが、効果的な推論モジュールの重要性が見落とされています。
現実世界では、推論と予測能力が人間の知覚と物体の追跡において重要な役割を果たします。
特に、これらの能力は人間の直感的な物理学と密接に関連しています。
これに触発されて、複雑なシーンにおけるモデルの認識能力を強化するために、メモリ バッファーを備えたスロットベースの時空間変換器 (STATM) と呼ばれる新しい推論モジュールを設計しました。
メモリ バッファは主に上流モジュールからのスロット情報のストレージとして機能し、スロットベースの時空間変換器はスロットベースの時空間アテンション計算と融合を通じて予測を行います。
さまざまなデータセットでの実験結果は、STATM がスロットベースのビデオ モデルのオブジェクト中心の学習機能を大幅に強化できることを示しています。

要約(オリジナル)

Object-centric learning aims to break down complex visual scenes into more manageable object representations, enhancing the understanding and reasoning abilities of machine learning systems toward the physical world. Recently, slot-based video models have demonstrated remarkable proficiency in segmenting and tracking objects, but they overlook the importance of the effective reasoning module. In the real world, reasoning and predictive abilities play a crucial role in human perception and object tracking; in particular, these abilities are closely related to human intuitive physics. Inspired by this, we designed a novel reasoning module called the Slot-based Time-Space Transformer with Memory buffer (STATM) to enhance the model’s perception ability in complex scenes. The memory buffer primarily serves as storage for slot information from upstream modules, the Slot-based Time-Space Transformer makes predictions through slot-based spatiotemporal attention computations and fusion. Our experiment results on various datasets show that STATM can significantly enhance object-centric learning capabilities of slot-based video models.

arxiv情報

著者 Jian Li,Pu Ren,Yang Liu,Hao Sun
発行日 2024-03-22 14:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク