要約
ビデオにおけるマルチラベルのアクション認識に対処することは、動的な環境におけるロボット アプリケーションにとって、特にロボットが物体を伴うタスクで人間と協力する必要がある場合に、重大な課題となります。
既存の手法では、目に見えないアクションを認識するのがまだ困難であったり、大量のトレーニング データが必要であったりします。
これらの問題を克服するために、ゼロショット マルチラベル アクション認識のための統合アプローチである Dual-VCLIP を提案します。
Dual-VCLIP は、マルチラベル画像分類のための DualCoOp メソッドを使用して、ゼロショット アクション認識メソッドである VCLIP を強化します。
私たちの方法の長所は、トレーニング時に学習するプロンプトが 2 つだけであるため、他の方法よりもはるかに簡単であることです。
オブジェクトベースのアクションの大部分を含む Charades データセットでメソッドを検証し、その単純さにも関わらず、このメソッドが完全なデータセット上の既存のメソッドと比べて良好に動作し、目に見えないアクションでテストした場合にパフォーマンスが期待できることを実証しました。
私たちの貢献では、新しい協調タスクのためのロボットのトレーニング中の動詞とオブジェクトのクラス分割の影響を強調し、パフォーマンスへの影響を強調し、バイアスを軽減するための洞察を提供します。
要約(オリジナル)
Addressing multi-label action recognition in videos represents a significant challenge for robotic applications in dynamic environments, especially when the robot is required to cooperate with humans in tasks that involve objects. Existing methods still struggle to recognize unseen actions or require extensive training data. To overcome these problems, we propose Dual-VCLIP, a unified approach for zero-shot multi-label action recognition. Dual-VCLIP enhances VCLIP, a zero-shot action recognition method, with the DualCoOp method for multi-label image classification. The strength of our method is that at training time it only learns two prompts, and it is therefore much simpler than other methods. We validate our method on the Charades dataset that includes a majority of object-based actions, demonstrating that — despite its simplicity — our method performs favorably with respect to existing methods on the complete dataset, and promising performance when tested on unseen actions. Our contribution emphasizes the impact of verb-object class-splits during robots’ training for new cooperative tasks, highlighting the influence on the performance and giving insights into mitigating biases.
arxiv情報
著者 | Carmela Calabrese,Stefano Berti,Giulia Pasquale,Lorenzo Natale |
発行日 | 2024-05-14 15:28:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google