RDMM: Fine-Tuned LLM Models for On-Device Robotic Decision Making with Enhanced Contextual Awareness in Specific Domains

要約

大規模な言語モデル(LLM)は、物理ロボットをAI駆動型システムと統合する際の大きな進歩を表しています。
現実世界の家庭競争のコンテキスト内で、フレームワークの能力を紹介します。
この研究では、ドメイン固有のコンテキスト内での意思決定の能力を備えたRDMM(ロボット工学の意思決定モデル)を利用するフレームワークと、個人の知識と能力の認識を紹介します。
フレームワークは情報を活用して、システムの自律的な意思決定を強化します。
他のアプローチとは対照的に、私たちの焦点は、リアルタイムのオンデバイスソリューションにあり、わずか8GBのメモリでハードウェアを正常に動作させます。
私たちのフレームワークには、ロボットに環境の理解を備えている視覚的認識モデルが組み込まれています。
さらに、このフレームワークには、リアルタイムの音声認識能力が統合されているため、人間とロボットの相互作用体験が向上しています。
実験結果は、RDMMフレームワークが93 \%の精度で計画できることを示しています。
さらに、27K計画インスタンスで構成される新しいデータセットと、競合に由来する1.3Kテキストイメージの注釈付きサンプルを紹介します。
この作業で開発されたフレームワーク、ベンチマーク、データセット、およびモデルは、https://github.com/shadynasrat/rdmmのGithubリポジトリで公開されています。

要約(オリジナル)

Large language models (LLMs) represent a significant advancement in integrating physical robots with AI-driven systems. We showcase the capabilities of our framework within the context of the real-world household competition. This research introduces a framework that utilizes RDMM (Robotics Decision-Making Models), which possess the capacity for decision-making within domain-specific contexts, as well as an awareness of their personal knowledge and capabilities. The framework leverages information to enhance the autonomous decision-making of the system. In contrast to other approaches, our focus is on real-time, on-device solutions, successfully operating on hardware with as little as 8GB of memory. Our framework incorporates visual perception models equipping robots with understanding of their environment. Additionally, the framework has integrated real-time speech recognition capabilities, thus enhancing the human-robot interaction experience. Experimental results demonstrate that the RDMM framework can plan with an 93\% accuracy. Furthermore, we introduce a new dataset consisting of 27k planning instances, as well as 1.3k text-image annotated samples derived from the competition. The framework, benchmarks, datasets, and models developed in this work are publicly available on our GitHub repository at https://github.com/shadynasrat/RDMM.

arxiv情報

著者 Shady Nasrat,Myungsu Kim,Seonil Lee,Jiho Lee,Yeoncheol Jang,Seung-joon Yi
発行日 2025-01-28 12:35:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク