要約
最近のマルチモーダルモデルの進歩は、物体認識やシーン理解において素晴らしい能力を示している。しかし、これらのモデルは、実世界のアプリケーションにとって重要な能力である、正確な空間定位に苦戦することが多い。我々は、チェス盤や地図のようなグリッドベースの参照を人間がどのように利用するかにヒントを得て、単純なグリッド・オーバーレイ・アプローチによる明示的な視覚的位置エンコーディングの導入を提案する。入力画像に9×9の黒グリッドパターンを追加することで、我々の方法は、トランスフォーマーにおける位置エンコーディングに類似した視覚的な空間ガイダンスを提供するが、明示的で視覚的な形式である。 COCO 2017データセットを用いた実験により、我々のグリッドベースのアプローチは、ベースライン性能と比較して、IoUで107.4%(0.27から0.56)、GIoUで194.4%(0.18から0.53)向上し、定位精度の大幅な改善を達成することが実証された。アテンション視覚化分析を通じて、この視覚的位置エンコーディングが、モデルが空間的関係をより良く把握するのに役立つことを示す。本手法はシンプルで効果的であるため、ロボット操作、医療画像処理、自律航法など、正確な空間推論を必要とするアプリケーションに特に有用である。
要約(オリジナル)
Recent advances in multimodal models have demonstrated impressive capabilities in object recognition and scene understanding. However, these models often struggle with precise spatial localization – a critical capability for real-world applications. Inspired by how humans use grid-based references like chess boards and maps, we propose introducing explicit visual position encoding through a simple grid overlay approach. By adding a 9×9 black grid pattern onto input images, our method provides visual spatial guidance analogous to how positional encoding works in transformers, but in an explicit, visual form. Experiments on the COCO 2017 dataset demonstrate that our grid-based approach achieves significant improvements in localization accuracy, with a 107.4% increase in IoU (from 0.27 to 0.56) and a 194.4% improvement in GIoU (from 0.18 to 0.53) compared to baseline performance. Through attention visualization analysis, we show how this visual position encoding helps models better ground spatial relationships. Our method’s simplicity and effectiveness make it particularly valuable for applications requiring accurate spatial reasoning, such as robotic manipulation, medical imaging, and autonomous navigation.
arxiv情報
著者 | Joongwon Chae,Zhenyu Wang,Lian Zhang,Dongmei Yu,Peiwu Qin |
発行日 | 2024-12-03 16:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |