meta4: semantically-aligned generation of metaphoric gestures using self-supervised text and speech representation

要約

イメージスキーマは、音声に存在するさまざまな概念を概念化し、推論する方法に影響を与える反復的な認知パターンです。
これらのパターンは私たちの認知プロセスに深く組み込まれており、ジェスチャーを含む身体表現に反映されます。
特に、比喩的なジェスチャーは、抽象的な概念を視覚的に表現するために、イメージ スキーマと一致する重要な特性と意味論的な意味を持っています。
ジェスチャーの形状と形式は、前腕と手を伸ばす、または手の動きで線をトレースするなどの抽象的な概念を伝えて、PATH のイメージ スキーマを視覚的に表現できます。
これまでの動作生成モデルは、主に音声 (音響特徴とテキスト) を利用して仮想エージェントの生成モデルを駆動することに重点を置いていました。
彼らは、比喩的なジェスチャーを効果的に生成するために、画像スキーマによって運ばれる重要な意味論的情報を考慮していませんでした。
この制限に対処するために、音声と画像スキーマの両方から比喩的なジェスチャーを生成する深層学習アプローチである META4 を導入します。
私たちのアプローチには 2 つの主な目標があります。1 つは入力テキストから画像スキーマを計算して根底にある意味論的および比喩的な意味を捕捉すること、もう 1 つは音声と計算された画像スキーマによって駆動される比喩的なジェスチャーを生成することです。
私たちのアプローチは、画像スキーマの可能性を活用しながら、音声駆動の比喩的ジェスチャーを生成する最初の方法です。
私たちはアプローチの有効性を実証し、比喩的なジェスチャーをモデル化する際の音声スキーマと画像スキーマの両方の重要性を強調します。

要約(オリジナル)

Image Schemas are repetitive cognitive patterns that influence the way we conceptualize and reason about various concepts present in speech. These patterns are deeply embedded within our cognitive processes and are reflected in our bodily expressions including gestures. Particularly, metaphoric gestures possess essential characteristics and semantic meanings that align with Image Schemas, to visually represent abstract concepts. The shape and form of gestures can convey abstract concepts, such as extending the forearm and hand or tracing a line with hand movements to visually represent the image schema of PATH. Previous behavior generation models have primarily focused on utilizing speech (acoustic features and text) to drive the generation model of virtual agents. They have not considered key semantic information as those carried by Image Schemas to effectively generate metaphoric gestures. To address this limitation, we introduce META4, a deep learning approach that generates metaphoric gestures from both speech and Image Schemas. Our approach has two primary goals: computing Image Schemas from input text to capture the underlying semantic and metaphorical meaning, and generating metaphoric gestures driven by speech and the computed image schemas. Our approach is the first method for generating speech driven metaphoric gestures while leveraging the potential of Image Schemas. We demonstrate the effectiveness of our approach and highlight the importance of both speech and image schemas in modeling metaphoric gestures.

arxiv情報

著者 Mireille Fares,Catherine Pelachaud,Nicolas Obin
発行日 2023-11-09 16:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク