従来のモデルのほとんどは、収集に多大な労力を要する実世界のデータセットでトレーニングされており、転移学習フレームワークを介したシミュレーション データを十分に活用していませんでした。
この研究では、Dual ProtoNCE と呼ばれる新しい対比損失を使用する、プロトタイプ対照転移学習 (PCTL) と呼ばれるマルチモーダル言語理解のための新しい転移学習アプローチを提案します。
自由形式の自然言語命令に従って、家庭環境内のターゲットオブジェクトを識別するタスクに PCTL を導入します。
PCTL を検証するために、新しい実世界データセットとシミュレーション データセットを構築しました。
私たちの実験では、PCTL が既存の方法よりも優れたパフォーマンスを発揮することが実証されました。
具体的には、PCTL では 78.1% の精度が達成されましたが、単純な微調整では 73.4% の精度が達成されました。
Although domestic service robots are expected to assist individuals who require support, they cannot currently interact smoothly with people through natural language. For example, given the instruction ‘Bring me a bottle from the kitchen,’ it is difficult for such robots to specify the bottle in an indoor environment. Most conventional models have been trained on real-world datasets that are labor-intensive to collect, and they have not fully leveraged simulation data through a transfer learning framework. In this study, we propose a novel transfer learning approach for multimodal language understanding called Prototypical Contrastive Transfer Learning (PCTL), which uses a new contrastive loss called Dual ProtoNCE. We introduce PCTL to the task of identifying target objects in domestic environments according to free-form natural language instructions. To validate PCTL, we built new real-world and simulation datasets. Our experiment demonstrated that PCTL outperformed existing methods. Specifically, PCTL achieved an accuracy of 78.1%, whereas simple fine-tuning achieved an accuracy of 73.4%.
著者 | Seitaro Otsuki,Shintaro Ishikawa,Komei Sugiura |
発行日 | 2023-07-12 06:14:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google