Labeling Sentences with Symbolic and Deictic Gestures via Semantic Similarity

要約

人工エージェントでの共同音声ジェスチャーの生成は、主にデータ駆動型モデルに基づく場合に最近注目を集めています。
ただし、エンドツーエンドの方法では、特定の形式のセマンティクスに関連する共同音声ジェスチャ、つまり、記号的ジェスチャと直解的ジェスチャを生成できないことがよくあります。
この研究では、文内のどの単語が象徴的ジェスチャーと説明的ジェスチャーに文脈的に関連しているかを特定します。
まず、イタリア文化の人々に認識され、さまざまな人型ロボットが再現できる 12 のジェスチャーを適切に選択しました。
次に、記号的ジェスチャと直解的ジェスチャで文にラベルを付けるための 2 つのルールベースのアルゴリズムを実装しました。
このルールは、ジェスチャーをヒューリスティックに表現する文と、人工エージェントが発音する必要がある客観的な文内のサブセンテンスとの間で、RoBerta モデルで計算された意味的類似性スコアに依存します。
また、類似性スコアを計算せずにジェスチャーを割り当てるベースライン アルゴリズムも実装しました。
最後に、結果を検証するために、グラフィカル ユーザー インターフェイス (GUI) を介して、30 人に Deictic および Symbolic ジェスチャを使用して一連の文にラベルを付けるように依頼し、そのラベルをアルゴリズムによって生成されたラベルと比較しました。
このスコープでは、平均精度 (AP) および交差オーバーユニオン (IOU) スコアを計算し、平均計算時間 (ACT) を評価しました。
私たちの結果は、意味的類似性スコアが発話内の象徴的ジェスチャーと直解的ジェスチャーを見つけるのに役立つことを示しています。

要約(オリジナル)

Co-speech gesture generation on artificial agents has gained attention recently, mainly when it is based on data-driven models. However, end-to-end methods often fail to generate co-speech gestures related to semantics with specific forms, i.e., Symbolic and Deictic gestures. In this work, we identify which words in a sentence are contextually related to Symbolic and Deictic gestures. Firstly, we appropriately chose 12 gestures recognized by people from the Italian culture, which different humanoid robots can reproduce. Then, we implemented two rule-based algorithms to label sentences with Symbolic and Deictic gestures. The rules depend on the semantic similarity scores computed with the RoBerta model between sentences that heuristically represent gestures and sub-sentences inside an objective sentence that artificial agents have to pronounce. We also implemented a baseline algorithm that assigns gestures without computing similarity scores. Finally, to validate the results, we asked 30 persons to label a set of sentences with Deictic and Symbolic gestures through a Graphical User Interface (GUI), and we compared the labels with the ones produced by our algorithms. For this scope, we computed Average Precision (AP) and Intersection Over Union (IOU) scores, and we evaluated the Average Computational Time (ACT). Our results show that semantic similarity scores are useful for finding Symbolic and Deictic gestures in utterances.

arxiv情報

著者 Ariel Gjaci,Carmine Tommaso Recchiuto,Antonio Sgorbissa
発行日 2024-07-02 10:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク