要約
短期的なオブジェクト インタラクション 予測は、自己中心的なビデオの観察から、次にアクティブなオブジェクトの位置、インタラクションの名詞と動詞のカテゴリ、および接触までの時間を検出することで構成されます。
この機能は、ウェアラブル アシスタントや人間とロボットの対話がユーザーの目標を理解するために不可欠ですが、STA を正確かつ信頼性の高い方法で実行するにはまだ改善の余地があります。
この研究では、次の 2 つの貢献によって STA 予測のパフォーマンスを向上させます。 1. 画像からの STA 予測をサポートするために、フレーム ガイド付き時間プーリング、デュアル画像ビデオ アテンション、およびマルチスケール特徴融合を統合した新しいアテンション ベースのアーキテクチャである STAformer を提案します。
-入力ビデオペア。
2. アフォーダンスをモデル化することで人間の行動に関する STA 予測を根拠付ける 2 つの新しいモジュールを導入します。まず、特定の物理シーンで発生する可能性のあるインタラクションの永続的なメモリとして機能する環境アフォーダンス モデルを統合します。
次に、手と物体の軌跡の観察からインタラクション ホットスポットを予測し、ホットスポットの周囲に局所的な STA 予測の信頼性を高めます。
私たちの結果は、総合トップ 5 mAP が Ego4D で最大 +45%、精選された EPIC-Kitchens STA ラベルの新しいセットで +42% という大幅な相対的な改善を示しています。
この分野での将来の研究を促進するために、Ego4D と EPIC-Kitchen でコード、注釈、および事前に抽出されたアフォーダンスをリリースします。
要約(オリジナル)
Short-Term object-interaction Anticipation consists of detecting the location of the next-active objects, the noun and verb categories of the interaction, and the time to contact from the observation of egocentric video. This ability is fundamental for wearable assistants or human robot interaction to understand the user goals, but there is still room for improvement to perform STA in a precise and reliable way. In this work, we improve the performance of STA predictions with two contributions: 1. We propose STAformer, a novel attention-based architecture integrating frame guided temporal pooling, dual image-video attention, and multiscale feature fusion to support STA predictions from an image-input video pair. 2. We introduce two novel modules to ground STA predictions on human behavior by modeling affordances.First, we integrate an environment affordance model which acts as a persistent memory of interactions that can take place in a given physical scene. Second, we predict interaction hotspots from the observation of hands and object trajectories, increasing confidence in STA predictions localized around the hotspot. Our results show significant relative Overall Top-5 mAP improvements of up to +45% on Ego4D and +42% on a novel set of curated EPIC-Kitchens STA labels. We will release the code, annotations, and pre extracted affordances on Ego4D and EPIC- Kitchens to encourage future research in this area.
arxiv情報
| 著者 | Lorenzo Mur-Labadia,Ruben Martinez-Cantin,Josechu Guerrero,Giovanni Maria Farinella,Antonino Furnari |
| 発行日 | 2024-06-05 15:34:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google