要約
視覚動作認識の機械学習モデルは通常、動作が特定のオブジェクトに関連付けられている特定の状況からのデータでトレーニングおよびテストされます。
トレーニング セット内のアクション オブジェクトの関連付けが、トレーニングされた状況を超えて一般化するモデルの能力にどのように影響するかは未解決の問題です。
私たちは、より優れた一般化能力を持つ行動認識モデルにつながるトレーニング データのプロパティを特定することに着手しました。
これを行うために、クロスシチュエーション学習と呼ばれる認知メカニズムからインスピレーションを得ています。これは、人間の学習者が異なる状況で同じ概念のインスタンスを観察することによって概念の意味を抽出することを示しています。
さまざまなタイプのアクション オブジェクトの関連付けを使用して制御された実験を実行し、より優れた分類器につながるトレーニング データのアクション オブジェクトの共起の重要なプロパティを特定します。
これらのプロパティは、コンピューター ビジョンの文献でアクション分類器をトレーニングするために通常使用されるデータセットには含まれていないため、私たちの作業は、より良い一般化のために効率的にトレーニングするためのデータセットを構築する最善の方法に関する有用な洞察を提供します。
要約(オリジナル)
Machine learning models of visual action recognition are typically trained and tested on data from specific situations where actions are associated with certain objects. It is an open question how action-object associations in the training set influence a model’s ability to generalize beyond trained situations. We set out to identify properties of training data that lead to action recognition models with greater generalization ability. To do this, we take inspiration from a cognitive mechanism called cross-situational learning, which states that human learners extract the meaning of concepts by observing instances of the same concept across different situations. We perform controlled experiments with various types of action-object associations, and identify key properties of action-object co-occurrence in training data that lead to better classifiers. Given that these properties are missing in the datasets that are typically used to train action classifiers in the computer vision literature, our work provides useful insights on how we should best construct datasets for efficiently training for better generalization.
arxiv情報
著者 | Satoshi Tsutsui,Xizi Wang,Guangyuan Weng,Yayun Zhang,David Crandall,Chen Yu |
発行日 | 2022-08-15 17:23:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google