要約
基礎モデルと大規模言語モデルは、テキストやデジタル メディアを生成するための人間に似た膨大な理解力と能力を示しています。
しかし、デジタル領域のように物理世界を自由に感知し、相互作用し、作動させることができる基礎モデルの実現には程遠いです。
これは、次のような多くの課題によるものです。1) 展開される静的デバイスとセンサーの種類に制限される、2) イベントは多くの場合、広い空間の一部分に局所化される、3) 完全なパフォーマンスを達成するにはデバイスを高密度で展開する必要がある
カバレッジ。
基礎モデルが物理環境と正常かつ自由に対話できるようにするための重要なステップとして、ドローンがわずか 25 ドル秒でオンボードのセンサーとアクチュエーターを自律的に交換できるようにする、モジュール式で再構成可能なセンシングおよび作動プラットフォームである RASP を提案します。
多様なタスクに素早く適応します。
私たちは、実際のスマート ホーム導入を通じて、RASP によって FM と LLM が、特定のセンサーとアクチュエータをオンザフライで使用して特定のエリアをターゲットにできるようにすることで、さまざまなタスクを最大 $85\%$ より効率よく完了できることを実証します。
要約(オリジナル)
Foundation models and large language models have shown immense human-like understanding and capabilities for generating text and digital media. However, foundation models that can freely sense, interact, and actuate the physical world like in the digital domain is far from being realized. This is due to a number of challenges including: 1) being constrained to the types of static devices and sensors deployed, 2) events often being localized to one part of a large space, and 3) requiring dense and deployments of devices to achieve full coverage. As a critical step towards enabling foundation models to successfully and freely interact with the physical environment, we propose RASP, a modular and reconfigurable sensing and actuation platform that allows drones to autonomously swap onboard sensors and actuators in only $25$ seconds, allowing a single drone to quickly adapt to a diverse range of tasks. We demonstrate through real smart home deployments that RASP enables FMs and LLMs to complete diverse tasks up to $85\%$ more successfully by allowing them to target specific areas with specific sensors and actuators on-the-fly.
arxiv情報
著者 | Minghui Zhao,Junxi Xia,Kaiyuan Hou,Yanchen Liu,Stephen Xia,Xiaofan Jiang |
発行日 | 2024-07-09 18:03:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google