Learning Human-Human Interactions in Images from Weak Textual Supervision

要約

タイトル:弱いテキスト監視からの画像中の人間-人間相互作用の学習

要約:
– 人間の相互作用は多様でコンテキストに依存するが、過去の研究ではそれらをカテゴリーとして扱い、可能な相互作用の数が極端に少ないという問題を無視してきた。
– 本論文では、人間-人間相互作用を自由なテキストとして1枚の静止画像から学習する新しいパラダイムを提案することで、状況と人物のランダムな関係をモデル化する柔軟性をもたらす。
– このタスクのために特にラベル付けされたデータがないことを克服するために、明示的な監視なしに生成された大規模言語モデルによる合成キャプションデータに対するknowledge distillationを使用する。
– この手順によって生成された疑似ラベルを使用して、画像中の人間-人間相互作用を効果的に理解するためにキャプションングモデルをトレーニングできることを示し、テキスト的および意味的信頼性および予測の事実に基づく根拠性を測定するさまざまなメトリックによって評価した。
– さらに、本手法がこのタスクにおいてSOTAの画像キャプションとシチュエーション認識モデルを上回ることを示す。
– WaldoとWendaという手動でキュレーションされた静止画像人間-人間相互作用理解のためのテストセットと一緒に、コードと疑似ラベルをリリースする。

要約(オリジナル)

Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding.

arxiv情報

著者 Morris Alper,Hadar Averbuch-Elor
発行日 2023-04-27 11:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク