要約
オブジェクト、特にツールは、それらに作用するエージェントにいくつかのアクションの可能性を提供します。これは一般にアフォーダンスという用語に関連付けられています。
ツールは通常、ハンマーの場合は釘を打つなど、特定の目的のために設計されており、これを主要なアフォーダンスと呼びます。
ツールは主な目的を超えて使用することもでき、その場合、この補助的な使用を二次アフォーダンスという用語と関連付けることができます。
アフォーダンスの知覚と学習に関するこれまでの研究は、主に一次アフォーダンスに焦点を当ててきました。
ここでは、人間のパートナーの二次ツールのアフォーダンスを学習するという、あまり研究されていない問題に取り組みます。
これを行うために、私たちは iCub ロボットを使用して、人間のパートナーが 4 つの異なるツールを使用して 20 のオブジェクトに対してアクションを実行している間、3 台のカメラで人間のパートナーを観察します。
私たちの実験では、人間のパートナーはツールを利用して、彼らの主要なアフォーダンスに対応しないアクションを実行します。
たとえば、iCub ロボットは、物体の長さを測定する代わりに、物差しを押したり、引いたり、動かしたりするために人間のパートナーを観察します。
この設定では、各アクションの実行前後にオブジェクトの画像を撮影してデータセットを構築しました。
次に、オブジェクトの「初期」位置と「最終」位置を示す生の画像を入力として使用し、3 つのニューラル ネットワーク (ResNet-18、ResNet-50、および ResNet-101) をそれぞれ 3 つのタスクでトレーニングすることにより、二次アフォーダンスの学習をモデル化します。(1
) オブジェクトの移動に使用されるツールの予測、(2) 実行されたアクションをエンコードした追加のカテゴリ入力を使用して使用されたツールの予測、(3) 使用されたツールと実行されたアクションの両方の統合予測。
私たちの結果は、深層学習アーキテクチャにより、iCub ロボットが二次ツール アフォーダンスを予測できるようになり、それによって複雑なアフォーダンスを伴う人間とロボットの協調的なオブジェクト操作への道が開かれることを示しています。
要約(オリジナル)
Objects, in particular tools, provide several action possibilities to the agents that can act on them, which are generally associated with the term of affordances. A tool is typically designed for a specific purpose, such as driving a nail in the case of a hammer, which we call as the primary affordance. A tool can also be used beyond its primary purpose, in which case we can associate this auxiliary use with the term secondary affordance. Previous work on affordance perception and learning has been mostly focused on primary affordances. Here, we address the less explored problem of learning the secondary tool affordances of human partners. To do this, we use the iCub robot to observe human partners with three cameras while they perform actions on twenty objects using four different tools. In our experiments, human partners utilize tools to perform actions that do not correspond to their primary affordances. For example, the iCub robot observes a human partner using a ruler for pushing, pulling, and moving objects instead of measuring their lengths. In this setting, we constructed a dataset by taking images of objects before and after each action is executed. We then model learning secondary affordances by training three neural networks (ResNet-18, ResNet-50, and ResNet-101) each on three tasks, using raw images showing the `initial’ and `final’ position of objects as input: (1) predicting the tool used to move an object, (2) predicting the tool used with an additional categorical input that encoded the action performed, and (3) joint prediction of both tool used and action performed. Our results indicate that deep learning architectures enable the iCub robot to predict secondary tool affordances, thereby paving the road for human-robot collaborative object manipulation involving complex affordances.
arxiv情報
著者 | Bosong Ding,Erhan Oztop,Giacomo Spigler,Murat Kirtay |
発行日 | 2024-07-16 17:14:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google