要約
ダイアディックな会話中の言語的コミュニケーションと非言語的コミュニケーションの間の関連付けをモデル化するためのビデオ フレームワークを紹介します。
話者の入力音声が与えられると、私たちのアプローチは、状況に応じて社会的に適切な表情を持つ聞き手のビデオを取得します。
私たちのアプローチはさらに、リスナーが自分自身の目標、性格、または背景に条件付けられるようにします。
私たちのアプローチは、大規模な言語モデルと視覚言語モデルの構成を通じて会話をモデル化し、解釈可能で制御可能な内部表現を作成します。
マルチモーダル コミュニケーションを研究するために、さまざまなトピックと人口統計をカバーするスクリプト化されていない会話の新しいビデオ データセットを提案します。
実験と視覚化は、私たちのアプローチがベースラインよりもはるかに社会的に適切なリスナーを出力できることを示しています。
ただし、多くの課題が残っており、さらなる進歩を促進するためにデータセットを公開しています。
ビデオの結果、データ、およびコードについては、当社の Web サイト (https://realtalk.cs.columbia.edu) を参照してください。
要約(オリジナル)
We introduce a video framework for modeling the association between verbal and non-verbal communication during dyadic conversation. Given the input speech of a speaker, our approach retrieves a video of a listener, who has facial expressions that would be socially appropriate given the context. Our approach further allows the listener to be conditioned on their own goals, personalities, or backgrounds. Our approach models conversations through a composition of large language models and vision-language models, creating internal representations that are interpretable and controllable. To study multimodal communication, we propose a new video dataset of unscripted conversations covering diverse topics and demographics. Experiments and visualizations show our approach is able to output listeners that are significantly more socially appropriate than baselines. However, many challenges remain, and we release our dataset publicly to spur further progress. See our website for video results, data, and code: https://realtalk.cs.columbia.edu.
arxiv情報
著者 | Scott Geng,Revant Teotia,Purva Tendulkar,Sachit Menon,Carl Vondrick |
発行日 | 2023-01-26 05:00:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google