From Text to Motion: Grounding GPT-4 in a Humanoid Robot ‘Alter3’

要約

我々は、大規模言語モデル (LLM)、特に GPT-4 を使用して自発的な動きを生成できる人型ロボット、Alter3 の開発について報告します。
この成果は、当社独自のアンドロイド Alter3 に GPT-4 を組み込むことで実現され、Alter の身体の動きで LLM を効果的に接地することができました。
通常、低レベルのロボット制御はハードウェアに依存しており、LLM コーパスの範囲外であるため、LLM ベースの直接ロボット制御には課題が生じます。
しかし、Alter3 のような人型ロボットの場合、人間の動作の言語表現をプログラムコードを通じてロボットの身体にマッピングすることで、直接制御が可能になります。
注目すべきことに、このアプローチにより、Alter3 は「自撮り」の姿勢や「幽霊のふり」などのさまざまなポーズをとることができ、体の各部分に対して明示的にプログラミングすることなく、時間の経過とともに一連のアクションを生成できるようになります。
これは、ロボットのゼロショット学習能力を示しています。
さらに、口頭によるフィードバックによりポーズを調整できるため、微調整の必要がなくなります。
Alter3 が生成したモーションのビデオは、https://tnoinkwms.github.io/ALTER-LLM/ でご覧いただけます。

要約(オリジナル)

We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter’s bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot’s body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a ‘selfie’ stance or ‘pretending to be a ghost,’ and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot’s zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3’s generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/

arxiv情報

著者 Takahide Yoshida,Atsushi Masumori,Takashi Ikegami
発行日 2023-12-11 17:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク