Face-to-Face Contrastive Learning for Social Intelligence Question-Answering

要約

人工社会知能 (複数の人物のやり取りのニュアンスを理解できるアルゴリズム) を作成することは、マルチモーダル ビデオからの顔の表情やジェスチャーを処理する上で、刺激的で新たな課題です。
最近のマルチモーダルな手法は、多くのタスクで最先端の技術を確立していますが、特に自己管理型のセットアップでは、社会的相互作用における話す順番をまたがる複雑な対面会話のダイナミクスをモデル化することは困難です。
このホワイト ペーパーでは、F2F-CL (F2F-CL) を提案します。これは、話す順番の境界に沿ったマルチモーダルな対面相互作用をコンテキスト化するために、因数分解ノードを使用して社会的相互作用をモデル化するように設計されたグラフ ニューラル ネットワークです。
F2F-CL モデルを使用して、同じビデオ内の異なる話すターンの因数分解ノード間で対照的な学習を実行することを提案します。
挑戦的な Social-IQ データセットを実験的に評価し、最先端の結果を示しました。

要約(オリジナル)

Creating artificial social intelligence – algorithms that can understand the nuances of multi-person interactions – is an exciting and emerging challenge in processing facial expressions and gestures from multimodal videos. Recent multimodal methods have set the state of the art on many tasks, but have difficulty modeling the complex face-to-face conversational dynamics across speaking turns in social interaction, particularly in a self-supervised setup. In this paper, we propose Face-to-Face Contrastive Learning (F2F-CL), a graph neural network designed to model social interactions using factorization nodes to contextualize the multimodal face-to-face interaction along the boundaries of the speaking turn. With the F2F-CL model, we propose to perform contrastive learning between the factorization nodes of different speaking turns within the same video. We experimentally evaluated the challenging Social-IQ dataset and show state-of-the-art results.

arxiv情報

著者 Alex Wilf,Martin Q. Ma,Paul Pu Liang,Amir Zadeh,Louis-Philippe Morency
発行日 2022-10-27 17:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク