Prototypical Contrastive Transfer Learning for Multimodal Language Understanding

要約

家庭用サービスロボットは支援を必要とする人を支援することが期待されていますが、現時点では自然言語を介して人々とスムーズに対話することはできません。
たとえば、「キッチンからボトルを持ってきて」という指示があった場合、屋内環境ではそのようなロボットがボトルを指定することは困難です。
従来のモデルのほとんどは、収集に多大な労力を要する実世界のデータセットでトレーニングされており、転移学習フレームワークを介したシミュレーション データを十分に活用していませんでした。
この研究では、Dual ProtoNCE と呼ばれる新しい対比損失を使用する、プロトタイプ対照転移学習 (PCTL) と呼ばれるマルチモーダル言語理解のための新しい転移学習アプローチを提案します。
自由形式の自然言語命令に従って、家庭環境内のターゲットオブジェクトを識別するタスクに PCTL を導入します。
PCTL を検証するために、新しい実世界データセットとシミュレーション データセットを構築しました。
私たちの実験では、PCTL が既存の方法よりも優れたパフォーマンスを発揮することが実証されました。
具体的には、PCTL では 78.1% の精度が達成されましたが、単純な微調整では 73.4% の精度が達成されました。

要約(オリジナル)

Although domestic service robots are expected to assist individuals who require support, they cannot currently interact smoothly with people through natural language. For example, given the instruction ‘Bring me a bottle from the kitchen,’ it is difficult for such robots to specify the bottle in an indoor environment. Most conventional models have been trained on real-world datasets that are labor-intensive to collect, and they have not fully leveraged simulation data through a transfer learning framework. In this study, we propose a novel transfer learning approach for multimodal language understanding called Prototypical Contrastive Transfer Learning (PCTL), which uses a new contrastive loss called Dual ProtoNCE. We introduce PCTL to the task of identifying target objects in domestic environments according to free-form natural language instructions. To validate PCTL, we built new real-world and simulation datasets. Our experiment demonstrated that PCTL outperformed existing methods. Specifically, PCTL achieved an accuracy of 78.1%, whereas simple fine-tuning achieved an accuracy of 73.4%.

arxiv情報

著者 Seitaro Otsuki,Shintaro Ishikawa,Komei Sugiura
発行日 2023-07-12 06:14:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク