SATO: Stable Text-to-Motion Framework

要約

Text to Motionモデルはロバストか?最近のText to Motionモデルの進歩は、主に特定の動作をより正確に予測することに起因しています。しかし、テキストモダリティは通常、事前に訓練されたCLIP(Contrastive Language-Image Pretraining)モデルのみに依存しています。つまり、意味的に類似した、あるいは同一のテキスト入力が提示された場合、その予測はしばしば一貫性のない出力を示し、その結果、ポーズが大きく異なる、あるいは正しくないことさえある。本論文では、この不安定性の根本的な原因を解明するための分析を行い、モデル出力の予測不可能性とテキストエンコーダーモジュールの不規則な注意パターンとの間に明確な関連性を確立する。その結果、この問題に対処することを目的とした形式的なフレームワークを導入し、これを安定したText-to-Motionフレームワーク(SATO)と呼ぶ。SATOは3つのモジュールから構成され、それぞれ安定した注意、安定した予測、精度とロバストネスのトレードオフのバランスを保つことに特化している。我々は、注意と予測の安定性を満たすSATOを構築するための方法論を提示する。モデルの安定性を検証するために、HumanML3DとKIT-MLに基づく新しいテキスト同義語摂動データセットを導入した。その結果、SATOは高い精度性能を維持しながら、同義語やその他のわずかな摂動に対して著しく安定であることが示された。

要約(オリジナル)

Is the Text to Motion model robust? Recent advancements in Text to Motion models primarily stem from more accurate predictions of specific actions. However, the text modality typically relies solely on pre-trained Contrastive Language-Image Pretraining (CLIP) models. Our research has uncovered a significant issue with the text-to-motion model: its predictions often exhibit inconsistent outputs, resulting in vastly different or even incorrect poses when presented with semantically similar or identical text inputs. In this paper, we undertake an analysis to elucidate the underlying causes of this instability, establishing a clear link between the unpredictability of model outputs and the erratic attention patterns of the text encoder module. Consequently, we introduce a formal framework aimed at addressing this issue, which we term the Stable Text-to-Motion Framework (SATO). SATO consists of three modules, each dedicated to stable attention, stable prediction, and maintaining a balance between accuracy and robustness trade-off. We present a methodology for constructing an SATO that satisfies the stability of attention and prediction. To verify the stability of the model, we introduced a new textual synonym perturbation dataset based on HumanML3D and KIT-ML. Results show that SATO is significantly more stable against synonyms and other slight perturbations while keeping its high accuracy performance.

arxiv情報

著者 Wenshuo Chen,Hongru Xiao,Erhang Zhang,Lijie Hu,Lei Wang,Mengyuan Liu,Chen Chen
発行日 2024-05-03 16:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク