要約
マルチモーダル統合は、ロボットが世界を認識できるようにするための重要なコンポーネントです。
マルチモダリティには、データを統合および融合する方法など、考慮する必要がある複数の課題が伴います。
この論文では、視覚、触覚、固有受容データを融合するさまざまな可能性を比較します。
データは、ロボットがコンテナとその内容を分類する必要がある実験セットアップの NICOL ロボットに直接記録されます。
コンテナーの性質が異なるため、モダリティの使用方法はクラス間で大きく異なる場合があります。
このユースケースにおけるマルチモーダル ソリューションの優位性を実証し、異なるタイム ステップでデータを統合する 3 つの融合戦略を評価します。
最良の融合戦略の精度は、1 つの特異な感覚のみを使用した最良の戦略より 15% 高いことがわかりました。
要約(オリジナル)
Multimodal integration is a key component of allowing robots to perceive the world. Multimodality comes with multiple challenges that have to be considered, such as how to integrate and fuse the data. In this paper, we compare different possibilities of fusing visual, tactile and proprioceptive data. The data is directly recorded on the NICOL robot in an experimental setup in which the robot has to classify containers and their content. Due to the different nature of the containers, the use of the modalities can wildly differ between the classes. We demonstrate the superiority of multimodal solutions in this use case and evaluate three fusion strategies that integrate the data at different time steps. We find that the accuracy of the best fusion strategy is 15% higher than the best strategy using only one singular sense.
arxiv情報
著者 | Josua Spisak,Matthias Kerzel,Stefan Wermter |
発行日 | 2023-07-17 13:26:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google