Understanding Embodied Reference with Touch-Line Transformer


代わりに、それらはいわゆる仮想タッチ ライン上にあります。
ただし、既存の人間のポーズ表現は、仮想タッチ ラインを組み込むことができません。
この問題に取り組むために、タッチライン トランスフォーマーを考案しました。これは、トークン化された視覚的およびテキスト的特徴を入力として受け取り、指示対象の境界ボックスとタッチライン ベクトルを同時に予測します。
YouRefIt データセットの実験では、0.75 IoU 基準で +25.0% の精度向上を実現し、モデルと人間のパフォーマンスのギャップを 63.6% 縮めることを示しています。
さらに、計算モデルは、肘 – 手首ラインを使用する場合よりも仮想タッチ ラインを使用する場合に指示対象をより正確に特定することを示すことにより、以前の人間の研究を計算的に検証します。


We study embodied reference understanding, the task of locating referents using embodied gestural signals and language references. Human studies have revealed that objects referred to or pointed to do not lie on the elbow-wrist line, a common misconception; instead, they lie on the so-called virtual touch line. However, existing human pose representations fail to incorporate the virtual touch line. To tackle this problem, we devise the touch-line transformer: It takes as input tokenized visual and textual features and simultaneously predicts the referent’s bounding box and a touch-line vector. Leveraging this touch-line prior, we further devise a geometric consistency loss that encourages the co-linearity between referents and touch lines. Using the touch-line as gestural information improves model performances significantly. Experiments on the YouRefIt dataset show our method achieves a +25.0% accuracy improvement under the 0.75 IoU criterion, closing 63.6% of the gap between model and human performances. Furthermore, we computationally verify prior human studies by showing that computational models more accurately locate referents when using the virtual touch line than when using the elbow-wrist line.


著者 Yang Li,Xiaoxue Chen,Hao Zhao,Jiangtao Gong,Guyue Zhou,Federico Rossano,Yixin Zhu
発行日 2022-10-11 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク