DaDu-Corki: Algorithm-Architecture Co-Design for Embodied AI-powered Robotic Manipulation

要約

具体化されたAIロボットは、人間の生活と製造方法を根本的に改善する可能性があります。
ロボットを制御するために大規模な言語モデルを使用するという急成長する分野での継続的な進歩は、効率的なコンピューティング基板に大きく依存しており、この傾向は操作タスクで強く顕著です。
特に、操作タスク用の具体化されたAIロボット用の今日のコンピューティングシステムは、ロボットアクションが個別のフレームベースに分割されるアルゴリズム開発者の関心に純粋に基づいて設計されています。
このような実行パイプラインは、高い遅延とエネルギー消費を生み出します。
このペーパーでは、リアルタイムの具体化されたAI搭載のロボット操作アプリケーション向けのアルゴリズムアーチテクチャの共同設計フレームワークである\ textsc {corki} \ xspaceを提案します。
具体化されたAIロボットの計算パイプラインにおけるLLM推論、ロボット制御、およびデータ通信を切り離すことを目指しています。
1つのフレームのアクションを予測する代わりに、\ textsc {corki} \ xspaceは、近い将来の軌跡を予測して、LLM推論の頻度を減らします。
このアルゴリズムは、ロボットを制御するために使用される実際のトルク信号に変換される軌道を加速するハードウェアと、データ通信と計算との類似点を組み合わせたハードウェアと結合しています。
\ textsc {corki} \ xspaceは、LLM推論の頻度を最大$ 5.1 \ Times $削減し、最大$ 5.9 \ Times $の速度を上げます。
成功率の改善は最大13.9%です。

要約(オリジナル)

Embodied AI robots have the potential to fundamentally improve the way human beings live and manufacture. Continued progress in the burgeoning field of using large language models to control robots depends critically on an efficient computing substrate, and this trend is strongly evident in manipulation tasks. In particular, today’s computing systems for embodied AI robots for manipulation tasks are designed purely based on the interest of algorithm developers, where robot actions are divided into a discrete frame basis. Such an execution pipeline creates high latency and energy consumption. This paper proposes \textsc{Corki}\xspace, an algorithm-architecture co-design framework for real-time embodied AI-powered robotic manipulation applications. We aim to decouple LLM inference, robotic control, and data communication in the embodied AI robots’ compute pipeline. Instead of predicting action for one single frame, \textsc{Corki}\xspace predicts the trajectory for the near future to reduce the frequency of LLM inference. The algorithm is coupled with a hardware that accelerates transforming trajectory into actual torque signals used to control robots and an execution pipeline that parallels data communication with computation. \textsc{Corki}\xspace largely reduces LLM inference frequency by up to $5.1\times$, resulting in up to $5.9\times$ speed up. The success rate improvement can be up to 13.9\%.

arxiv情報

著者 Yiyang Huang,Yuhui Hao,Bo Yu,Feng Yan,Yuxin Yang,Feng Min,Yinhe Han,Lin Ma,Shaoshan Liu,Qiang Liu,Yiming Gan
発行日 2025-06-08 15:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.RO パーマリンク