Aligning Actions and Walking to LLM-Generated Textual Descriptions

要約

大規模言語モデル (LLM) は、データ拡張や合成データ生成など、さまざまなドメインで優れた機能を実証してきました。
この研究では、LLM を使用して、動作と歩行パターンの両方を含むモーション シーケンスの豊富なテキスト記述を生成する方法を検討しています。
私たちは LLM の表現力を活用して、動作表現を高レベルの言語的手がかりと一致させ、動作認識と外観属性に基づく歩行シーケンスの取得という 2 つの異なるタスクに取り組みます。
アクション認識では、LLM を使用して BABEL-60 データセット内のアクションのテキスト記述を生成し、モーション シーケンスと言語表現の調整を容易にします。
歩行分析の分野では、LLM を使用して DenseGait データセットから動作シーケンスのテキスト記述を生成することにより、歩行パターンに対する外観属性の影響を調査します。
これらの説明は、服装の選択や履物などの要因に影響される歩き方の微妙な変化を捉えています。
私たちのアプローチは、構造化されたモーション属性を強化し、マルチモーダル表現を調整する際の LLM の可能性を示しています。
この発見は、包括的な動作の理解の進歩に貢献し、マルチモーダルアライメントおよび動作解析のためのデータ拡張において LLM を活用するための新しい道を切り開きます。
コードは https://github.com/Radu1999/WalkAndText で公開しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in various domains, including data augmentation and synthetic data generation. This work explores the use of LLMs to generate rich textual descriptions for motion sequences, encompassing both actions and walking patterns. We leverage the expressive power of LLMs to align motion representations with high-level linguistic cues, addressing two distinct tasks: action recognition and retrieval of walking sequences based on appearance attributes. For action recognition, we employ LLMs to generate textual descriptions of actions in the BABEL-60 dataset, facilitating the alignment of motion sequences with linguistic representations. In the domain of gait analysis, we investigate the impact of appearance attributes on walking patterns by generating textual descriptions of motion sequences from the DenseGait dataset using LLMs. These descriptions capture subtle variations in walking styles influenced by factors such as clothing choices and footwear. Our approach demonstrates the potential of LLMs in augmenting structured motion attributes and aligning multi-modal representations. The findings contribute to the advancement of comprehensive motion understanding and open up new avenues for leveraging LLMs in multi-modal alignment and data augmentation for motion analysis. We make the code publicly available at https://github.com/Radu1999/WalkAndText

arxiv情報

著者 Radu Chivereanu,Adrian Cosma,Andy Catruna,Razvan Rughinis,Emilian Radoi
発行日 2024-04-18 13:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク