要約
精神分析では、視覚的な創造を通して自分の心理状態を解釈することが重要な要求に直面しています。
コンピュータ ビジョンの分野における既存の研究の 2 つの主なタスクである、感情/感情の分類と感情的なキャプションは、心理的解釈の要件をほとんど満たすことができません。
精神分析の要求を満たすために、私たちは挑戦的なタスク \textbf{V}isual \textbf{E}motion \textbf{I}interpretation \textbf{T}ask (VEIT) を導入します。
VEIT では、AI がビジュアル クリエイションを通じてクリエーターの心理状態を合理的に解釈する必要があります。
このタスクをサポートするために、SpyIn (\textbf{S}and\textbf{p}la\textbf{y} \textbf{In}terpretation Dataset) と呼ばれるマルチモーダル データセットを提示します。これは、心理理論がサポートされ、専門的な注釈が付けられています。
データセット分析は、SpyIn が VEIT をサポートできるだけでなく、他のキャプション データセットと比較してより困難であることを示しています。
SpyIn に基づいて、いくつかの画像キャプション手法の実験を行い、SpyIn で SOTA 結果を取得するビジュアルセマンティック結合モデルを提案します。
結果は、VEIT がシーン グラフ情報と心理的知識を必要とするより困難なタスクであることを示しています。
私たちの研究はまた、AI が人間の内的世界を視覚的な創造物を通じて分析し、説明する可能性を示しています。
要約(オリジナル)
In psychoanalysis, generating interpretations to one’s psychological state through visual creations is facing significant demands. The two main tasks of existing studies in the field of computer vision, sentiment/emotion classification and affective captioning, can hardly satisfy the requirement of psychological interpreting. To meet the demands for psychoanalysis, we introduce a challenging task, \textbf{V}isual \textbf{E}motion \textbf{I}nterpretation \textbf{T}ask (VEIT). VEIT requires AI to generate reasonable interpretations of creator’s psychological state through visual creations. To support the task, we present a multimodal dataset termed SpyIn (\textbf{S}and\textbf{p}la\textbf{y} \textbf{In}terpretation Dataset), which is psychological theory supported and professional annotated. Dataset analysis illustrates that SpyIn is not only able to support VEIT, but also more challenging compared with other captioning datasets. Building on SpyIn, we conduct experiments of several image captioning method, and propose a visual-semantic combined model which obtains a SOTA result on SpyIn. The results indicate that VEIT is a more challenging task requiring scene graph information and psychological knowledge. Our work also show a promise for AI to analyze and explain inner world of humanity through visual creations.
arxiv情報
著者 | Likun Yang,Xiaokun Feng,Xiaotang Chen,Shiyu Zhang,Kaiqi Huang |
発行日 | 2023-03-16 10:01:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google