要約
人間の行動の同時発生を自動的に識別するタスクを導入します。つまり、2 つの人間の行動が同じ時間間隔で同時発生できるかどうかを判断します。
私たちは ACE (Action Co-occurrenceE) データセットを作成し、一般公開しています。このデータセットは、約 12,000 個の視覚アクションの共起ペアとそれに対応するビデオ クリップの大規模なグラフで構成されています。
視覚情報とテキスト情報を活用して、2 つのアクションが同時に発生しているかどうかを自動的に推測するグラフ リンク予測モデルについて説明します。
グラフは人間の行動間の関係を捉えるのに特に適しており、学習されたグラフ表現が私たちのタスクに効果的であり、さまざまなデータドメインにわたって新規で関連性のある情報を捉えることができることを示します。
この論文で紹介されている ACE データセットとコードは、https://github.com/MichiganNLP/vlog_action_co-occurrence で公開されています。
要約(オリジナル)
We introduce the task of automatic human action co-occurrence identification, i.e., determine whether two human actions can co-occur in the same interval of time. We create and make publicly available the ACE (Action Co-occurrencE) dataset, consisting of a large graph of ~12k co-occurring pairs of visual actions and their corresponding video clips. We describe graph link prediction models that leverage visual and textual information to automatically infer if two actions are co-occurring. We show that graphs are particularly well suited to capture relations between human actions, and the learned graph representations are effective for our task and capture novel and relevant information across different data domains. The ACE dataset and the code introduced in this paper are publicly available at https://github.com/MichiganNLP/vlog_action_co-occurrence.
arxiv情報
著者 | Oana Ignat,Santiago Castro,Weiji Li,Rada Mihalcea |
発行日 | 2023-09-12 13:38:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google