How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios

要約

近年、ディープ ニューラル ネットワークは、動画内のオブジェクトやアクティビティを認識する能力がますます強力になってきています。
ただし、ビデオの理解が現実世界のアプリケーションで広く使用されるようになると、重要な考慮事項は、ビデオのコンテンツだけでなく、それが視聴者の幸福と感情状態にどのように影響するかを理解する人間中心のシステムを開発することです。
この設定での研究を容易にするために、感情的な反応と主観的な幸福について手動で注釈が付けられた 60,000 以上のビデオを含む 2 つの大規模なデータセットを紹介します。
Video Cognitive Empathy (VCE) データセットには、きめ細かな感情反応の分布に関する注釈が含まれているため、モデルは感情状態を詳細に理解できます。
Video to Valence (V2V) データセットには、動画間の相対的な快適さの注釈が含まれており、これにより、幸福度の連続スペクトルを予測できます。
実験では、主にアクションを認識してオブジェクトの輪郭を見つけるようにトレーニングされたビデオ モデルを再利用して、人間の好みやビデオの感情的な内容を理解する方法を示します。
改善の余地はありますが、健康状態と感情的な反応を予測することは、最先端のモデルの地平線上にあります。
私たちのデータセットが、常識的なビデオの理解と人間の好みの学習の交差点でさらなる進歩を促進するのに役立つことを願っています.

要約(オリジナル)

In recent years, deep neural networks have demonstrated increasingly strong abilities to recognize objects and activities in videos. However, as video understanding becomes widely used in real-world applications, a key consideration is developing human-centric systems that understand not only the content of the video but also how it would affect the wellbeing and emotional state of viewers. To facilitate research in this setting, we introduce two large-scale datasets with over 60,000 videos manually annotated for emotional response and subjective wellbeing. The Video Cognitive Empathy (VCE) dataset contains annotations for distributions of fine-grained emotional responses, allowing models to gain a detailed understanding of affective states. The Video to Valence (V2V) dataset contains annotations of relative pleasantness between videos, which enables predicting a continuous spectrum of wellbeing. In experiments, we show how video models that are primarily trained to recognize actions and find contours of objects can be repurposed to understand human preferences and the emotional content of videos. Although there is room for improvement, predicting wellbeing and emotional response is on the horizon for state-of-the-art models. We hope our datasets can help foster further advances at the intersection of commonsense video understanding and human preference learning.

arxiv情報

著者 Mantas Mazeika,Eric Tang,Andy Zou,Steven Basart,Jun Shern Chan,Dawn Song,David Forsyth,Jacob Steinhardt,Dan Hendrycks
発行日 2022-10-18 17:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG パーマリンク