Understanding Embodied Reference with Touch-Line Transformer

要約

具現化された参照の理解、具現化されたジェスチャー信号と言語参照を使用して参照対象を見つけるタスクを研究します。
人間の研究では、参照または指し示されるオブジェクトは、よくある誤解である肘と手首の線上にないことが明らかになりました。
代わりに、それらはいわゆる仮想タッチ ライン上にあります。
ただし、既存の人間のポーズ表現は、仮想タッチ ラインを組み込むことができません。
この問題に取り組むために、タッチライン トランスフォーマーを考案しました。これは、トークン化された視覚的およびテキスト的特徴を入力として受け取り、指示対象の境界ボックスとタッチライン ベクトルを同時に予測します。
このタッチラインの事前を活用して、参照対象とタッチラインの間の共直線性を促進する幾何学的一貫性の損失をさらに考案します。
ジェスチャー情報としてタッチラインを使用すると、モデルのパフォーマンスが大幅に向上します。
YouRefIt データセットの実験では、0.75 IoU 基準で +25.0% の精度向上を実現し、モデルと人間のパフォーマンスのギャップを 63.6% 縮めることを示しています。
さらに、計算モデルは、肘 – 手首ラインを使用する場合よりも仮想タッチ ラインを使用する場合に指示対象をより正確に特定することを示すことにより、以前の人間の研究を計算的に検証します。

要約(オリジナル)

We study embodied reference understanding, the task of locating referents using embodied gestural signals and language references. Human studies have revealed that objects referred to or pointed to do not lie on the elbow-wrist line, a common misconception; instead, they lie on the so-called virtual touch line. However, existing human pose representations fail to incorporate the virtual touch line. To tackle this problem, we devise the touch-line transformer: It takes as input tokenized visual and textual features and simultaneously predicts the referent’s bounding box and a touch-line vector. Leveraging this touch-line prior, we further devise a geometric consistency loss that encourages the co-linearity between referents and touch lines. Using the touch-line as gestural information improves model performances significantly. Experiments on the YouRefIt dataset show our method achieves a +25.0% accuracy improvement under the 0.75 IoU criterion, closing 63.6% of the gap between model and human performances. Furthermore, we computationally verify prior human studies by showing that computational models more accurately locate referents when using the virtual touch line than when using the elbow-wrist line.

arxiv情報

著者 Yang Li,Xiaoxue Chen,Hao Zhao,Jiangtao Gong,Guyue Zhou,Federico Rossano,Yixin Zhu
発行日 2022-10-12 11:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク