Maia: A Real-time Non-Verbal Chat for Human-AI Interaction

要約

コンピューター ビジョンにおける対面コミュニケーション モデリングは、対面でのやり取り中に非言語的な合図や行動を認識して分析できるアルゴリズムの開発に焦点を当てた研究分野です。
私たちは、人間と AI の対話のためのテキスト チャットに代わる方法を提案します。これは、非言語ビジュアル コミュニケーションのみに基づいており、人間のユーザーを反映しながらも即興で行う顔の表情や頭の動きを使用して、ユーザーと効率的に関わり、ユーザーの注意を引きます。
低コストかつリアルタイムで実現します。
私たちの目標は、顔の表情やその他の非言語的手がかりをリアルタイムで追跡および分析し、この情報を使用して人間の行動を予測および理解できるモデルを構築することです。
当社は、検索、統計、深層学習技術に基づいた 3 つの異なる補完的なアプローチを提供します。
私たちは人間による評価と自動評価を提供し、それぞれの方向の長所と短所について説明します。

要約(オリジナル)

Face-to-face communication modeling in computer vision is an area of research focusing on developing algorithms that can recognize and analyze non-verbal cues and behaviors during face-to-face interactions. We propose an alternative to text chats for Human-AI interaction, based on non-verbal visual communication only, using facial expressions and head movements that mirror, but also improvise over the human user, to efficiently engage with the users, and capture their attention in a low-cost and real-time fashion. Our goal is to track and analyze facial expressions, and other non-verbal cues in real-time, and use this information to build models that can predict and understand human behavior. We offer three different complementary approaches, based on retrieval, statistical, and deep learning techniques. We provide human as well as automatic evaluations and discuss the advantages and disadvantages of each direction.

arxiv情報

著者 Dragos Costea,Alina Marcu,Cristina Lazar,Marius Leordeanu
発行日 2024-02-09 13:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク