要約
本テクニカルレポートは、Ego4Dチャレンジにおける一連の自己中心的なビデオタスク間の関係を探索するEgoTask Translationアプローチについて記述している。本アプローチは、エゴタスクに関連する他のタスクのために開発された既存のモデルを活用し、エゴタスクの特徴をエゴタスクに翻訳するタスクトランスレータを設計することで、エゴタスクを改善する。ベースラインアーキテクチャに変更を加えることなく、我々の提案するアプローチは、2つのEgo4Dチャレンジにおいて競争力のある性能を達成し、talking to meチャレンジで1位、PNRキーフレーム位置特定チャレンジで3位を獲得した。
要約(オリジナル)
This technical report describes the EgoTask Translation approach that explores relations among a set of egocentric video tasks in the Ego4D challenge. To improve the primary task of interest, we propose to leverage existing models developed for other related tasks and design a task translator that learns to ”translate” auxiliary task features to the primary task. With no modification to the baseline architectures, our proposed approach achieves competitive performance on two Ego4D challenges, ranking the 1st in the talking to me challenge and the 3rd in the PNR keyframe localization challenge.
arxiv情報
著者 | Zihui Xue,Yale Song,Kristen Grauman,Lorenzo Torresani |
発行日 | 2023-02-03 18:05:49+00:00 |
arxivサイト | arxiv_id(pdf) |