Learning Human-Human Interactions in Images from Weak Textual Supervision

要約

人間間の相互作用は多様であり、状況に依存しますが、これまでの研究では、相互作用の可能性の重い尾部を無視して、それらをカテゴリー的なものとして扱ってきました。
私たちは、人間と人間の相互作用を単一の静止画像からフリーテキストとして学習する新しいパラダイムを提案し、状況と人間間の関係の無限の空間を柔軟にモデル化できるようにします。
このタスク専用にラベル付けされたデータの欠如を克服するために、明示的な監視なしで大規模な言語モデルによって生成された合成キャプション データに適用される知識蒸留を使用します。
この手順で生成された擬似ラベルを使用して、画像内の人間と人間のインタラクションを効果的に理解するキャプション モデルをトレーニングすることができます。これは、予測のテキストおよび意味論的な忠実性と事実に基づく根拠を測定するさまざまな指標によって測定されます。
さらに、このタスクでは、私たちのアプローチがSOTA画像キャプションおよび状況認識モデルよりも優れていることを示します。
私たちはコードと擬似ラベルを Waldo と Wenda とともにリリースします。これは、静止画像の人間と人間の相互作用を理解するために手動で厳選されたテスト セットです。

要約(オリジナル)

Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding.

arxiv情報

著者 Morris Alper,Hadar Averbuch-Elor
発行日 2023-09-18 17:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク