Labeling Sentences with Symbolic and Deictic Gestures via Semantic Similarity

要約

近年、人工エージェントにおける共話ジェスチャ生成は、主にデータ駆動型モデルに基づいて注目されている。しかし、End-to-Endの手法では、特定の形式、すなわち、SymbolicジェスチャやDeicticジェスチャを持つ意味論に関連した共話ジェスチャを生成できないことが多い。本研究では、文中のどの単語がシンボリックジェスチャーとディクティックジェスチャーに文脈的に関連しているかを特定する。まず、イタリア文化圏の人々が認識する12のジェスチャーを適切に選択し、異なるヒューマノイドロボットが再現できるようにした。次に、文にシンボリックジェスチャーとディクティックジェスチャーをラベル付けする2つのルールベースのアルゴリズムを実装した。ルールは、ヒューリスティックにジェスチャーを表現する文と、人工エージェントが発音しなければならない目的文内のサブセンテンスとの間のRoBertaモデルで計算された意味的類似度スコアに依存する。また、類似度スコアを計算せずにジェスチャーを割り当てるベースラインアルゴリズムも実装した。最後に、結果を検証するために、グラフィカル・ユーザー・インターフェイス(GUI)を通して、30人の人に、デイクティック・ジェスチャーとシンボリック・ジェスチャーを持つ文のラベル付けを依頼し、我々のアルゴリズムによって生成されたラベルと比較した。このスコープでは、平均精度(AP)スコアとIntersection Over Union(IOU)スコアを計算し、平均計算時間(ACT)を評価した。その結果、意味的類似度スコアは、発話中のSymbolicジェスチャーとDeicticジェスチャーを見つけるのに有用であることが示された。

要約(オリジナル)

Co-speech gesture generation on artificial agents has gained attention recently, mainly when it is based on data-driven models. However, end-to-end methods often fail to generate co-speech gestures related to semantics with specific forms, i.e., Symbolic and Deictic gestures. In this work, we identify which words in a sentence are contextually related to Symbolic and Deictic gestures. Firstly, we appropriately chose 12 gestures recognized by people from the Italian culture, which different humanoid robots can reproduce. Then, we implemented two rule-based algorithms to label sentences with Symbolic and Deictic gestures. The rules depend on the semantic similarity scores computed with the RoBerta model between sentences that heuristically represent gestures and sub-sentences inside an objective sentence that artificial agents have to pronounce. We also implemented a baseline algorithm that assigns gestures without computing similarity scores. Finally, to validate the results, we asked 30 persons to label a set of sentences with Deictic and Symbolic gestures through a Graphical User Interface (GUI), and we compared the labels with the ones produced by our algorithms. For this scope, we computed Average Precision (AP) and Intersection Over Union (IOU) scores, and we evaluated the Average Computational Time (ACT). Our results show that semantic similarity scores are useful for finding Symbolic and Deictic gestures in utterances.

arxiv情報

著者 Ariel Gjaci,Carmine Tommaso Recchiuto,Antonio Sgorbissa
発行日 2024-07-03 11:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク