要約
二者間の対話では、人間は言語的および非言語的合図を使用して自分の意図と精神状態を伝達します。この場合、特定の話者の行動に応じて複数の異なる顔の反応が適切である場合があります。
次に、これまで見たことのない話者の行動から、複数の適切で多様で現実的で同期した人間の顔の反応を自動的に生成できる機械学習 (ML) モデルを開発する方法は、困難な課題です。
最初の REACT チャレンジ (REACT 2023) の構成が成功したことに続き、このエディションのチャレンジ (REACT 2024) では、以前のチャレンジで使用されたサブセットが採用されています。これには、もともと NOXI および RECOLA の一部として記録された、セグメント化された 30 秒の二項インタラクション クリップが含まれています。
データセットを利用して、さまざまな二者間ビデオ会議シナリオの下で、入力された会話パートナーの刺激を考慮して、複数の適切な顔の反応 (顔の画像シーケンスとその属性を含む) を生成できる機械学習 (ML) モデルの開発とベンチマークを参加者に奨励します。
このペーパーでは、次の内容を説明します。(i) REACT 2024 チャレンジのガイドライン。
(ii) チャレンジで使用されたデータセット。
(iii) 提案された 2 つのサブチャレンジ、それぞれオフラインでの複数の適切な顔反応の生成とオンラインでの複数の適切な顔の反応の生成に関するベースライン システムのパフォーマンス。
チャレンジのベースライン コードは、https://github.com/reactmultimodalchallenge/baseline_react2024 で公開されています。
要約(オリジナル)
In dyadic interactions, humans communicate their intentions and state of mind using verbal and non-verbal cues, where multiple different facial reactions might be appropriate in response to a specific speaker behaviour. Then, how to develop a machine learning (ML) model that can automatically generate multiple appropriate, diverse, realistic and synchronised human facial reactions from an previously unseen speaker behaviour is a challenging task. Following the successful organisation of the first REACT challenge (REACT 2023), this edition of the challenge (REACT 2024) employs a subset used by the previous challenge, which contains segmented 30-secs dyadic interaction clips originally recorded as part of the NOXI and RECOLA datasets, encouraging participants to develop and benchmark Machine Learning (ML) models that can generate multiple appropriate facial reactions (including facial image sequences and their attributes) given an input conversational partner’s stimulus under various dyadic video conference scenarios. This paper presents: (i) the guidelines of the REACT 2024 challenge; (ii) the dataset utilized in the challenge; and (iii) the performance of the baseline systems on the two proposed sub-challenges: Offline Multiple Appropriate Facial Reaction Generation and Online Multiple Appropriate Facial Reaction Generation, respectively. The challenge baseline code is publicly available at https://github.com/reactmultimodalchallenge/baseline_react2024.
arxiv情報
著者 | Siyang Song,Micol Spitale,Cheng Luo,Cristina Palmero,German Barquero,Hengde Zhu,Sergio Escalera,Michel Valstar,Tobias Baur,Fabien Ringeval,Elisabeth Andre,Hatice Gunes |
発行日 | 2024-01-10 14:01:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google