要約
「境界ボックスの人はどのように感じますか?」
現実世界の状況にある人の見かけの感情の人間レベルの認識を達成することは、コンピュータービジョンにおける未解決のタスクのままです。
表情だけでは十分ではありません。身体のポーズ、文脈的知識、および常識的な推論はすべて、人間がこの感情的な心の課題をどのように実行するかに貢献しています。
このホワイトペーパーでは、最近の大型ビジョン言語モデルで有効になった2つの主要なアプローチを検証します。1)画像のキャプションに続いて、言語のみのLLM、および2)ゼロショットおよび微調整されたセットアップの下でのビジョン言語モデル。
コンテキスト(絵文字)データセットの感情に関する方法を評価し、小さなデータセットでも微調整されたビジョン言語モデルが従来のベースラインを大幅に上回ることができることを実証します。
この研究の結果は、ロボットとエージェントが将来感情的に敏感な意思決定と相互作用を実行するのを支援することを目的としています。
要約(オリジナル)
‘How does the person in the bounding box feel?’ Achieving human-level recognition of the apparent emotion of a person in real world situations remains an unsolved task in computer vision. Facial expressions are not enough: body pose, contextual knowledge, and commonsense reasoning all contribute to how humans perform this emotional theory of mind task. In this paper, we examine two major approaches enabled by recent large vision language models: 1) image captioning followed by a language-only LLM, and 2) vision language models, under zero-shot and fine-tuned setups. We evaluate the methods on the Emotions in Context (EMOTIC) dataset and demonstrate that a vision language model, fine-tuned even on a small dataset, can significantly outperform traditional baselines. The results of this work aim to help robots and agents perform emotionally sensitive decision-making and interaction in the future.
arxiv情報
著者 | Yasaman Etesam,Özge Nilay Yalçın,Chuxuan Zhang,Angelica Lim |
発行日 | 2025-01-31 18:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google