要約
このレポートでは、EPIC-Kitchens-100 Unsupervised Domain Adaptation (UDA) Challenge in Action Recognition に対するアプローチの技術的な詳細を示します。
私たちのアプローチは、アクションが実行される順序はソース ドメインとターゲット ドメイン間で同様であるという考えに基づいています。
これに基づいて、ソース ドメインとターゲット ドメインのアクションをランダムに組み合わせて、変更されたシーケンスを生成します。
UDA 設定ではラベルのないターゲット データのみが利用できるため、ターゲットのアクション ラベルを抽出するために標準の擬似ラベル付け戦略を使用します。
次に、結果として生じるアクション シーケンスを予測するようにネットワークに依頼します。
これにより、トレーニング中に両方のドメインからの情報を統合し、ターゲット上でより良い転送結果を達成することができます。
さらに、シーケンス情報をより適切に組み込むために、言語モデルを使用して、可能性の低いシーケンスをフィルタリングします。
最後に、共起マトリックスを使用して、動詞と名詞の目に見えない組み合わせを排除しました。
「sshayan」というラベルが付いた私たちの投稿はリーダーボードにあり、現在「動詞」で 2 位、「名詞」と「アクション」の両方で 4 位を保持しています。
要約(オリジナル)
This report presents the technical details of our approach for the EPIC-Kitchens-100 Unsupervised Domain Adaptation (UDA) Challenge in Action Recognition. Our approach is based on the idea that the order in which actions are performed is similar between the source and target domains. Based on this, we generate a modified sequence by randomly combining actions from the source and target domains. As only unlabelled target data are available under the UDA setting, we use a standard pseudo-labeling strategy for extracting action labels for the target. We then ask the network to predict the resulting action sequence. This allows to integrate information from both domains during training and to achieve better transfer results on target. Additionally, to better incorporate sequence information, we use a language model to filter unlikely sequences. Lastly, we employed a co-occurrence matrix to eliminate unseen combinations of verbs and nouns. Our submission, labeled as ‘sshayan’, can be found on the leaderboard, where it currently holds the 2nd position for ‘verb’ and the 4th position for both ‘noun’ and ‘action’.
arxiv情報
著者 | Amirshayan Nasirimajd,Simone Alberto Peirone,Chiara Plizzari,Barbara Caputo |
発行日 | 2023-07-24 14:35:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google