Words in Motion: Representation Engineering for Motion Forecasting

要約

動き予測は、過去の動きと環境コンテキストのシーケンスを将来の動きに変換します。
最近の手法は学習された表現に依存しているため、解釈が難しい隠れた状態が生じます。
この研究では、自然言語を使用して人間が解釈できる方法で動きの特徴を量子化し、それらが隠れた状態にどの程度埋め込まれているかを測定します。
私たちの実験により、運動シーケンスの隠れた状態が運動特徴の離散的なセットに関して配置されることが明らかになりました。
これらの洞察に従って、制御ベクトルをモーション特徴に適合させ、推論時にモーション予測を制御できるようにします。
その結果、私たちの方法では、テキスト入力によるトランスフォーマーベースの動き予測モデルの制御が可能になり、これらのモデルと対話して理解するための独自のインターフェイスが提供されます。
私たちの実装は https://github.com/kit-mrt/future-motion で入手できます。

要約(オリジナル)

Motion forecasting transforms sequences of past movements and environment context into future motion. Recent methods rely on learned representations, resulting in hidden states that are difficult to interpret. In this work, we use natural language to quantize motion features in a human-interpretable way, and measure the degree to which they are embedded in hidden states. Our experiments reveal that hidden states of motion sequences are arranged with respect to our discrete sets of motion features. Following these insights, we fit control vectors to motion features, which allow for controlling motion forecasts at inference. Consequently, our method enables controlling transformer-based motion forecasting models with textual inputs, providing a unique interface to interact with and understand these models. Our implementation is available at https://github.com/kit-mrt/future-motion

arxiv情報

著者 Omer Sahin Tas,Royden Wagner
発行日 2024-06-17 15:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク