Learning to Summarize and Answer Questions about a Virtual Robot’s Past Actions

要約

ロボットが長いアクションシーケンスを実行する場合、ユーザーは自分が何をしたかを簡単かつ確実に知りたいと思うでしょう。
したがって、自然言語のみを使用して、ロボット エージェントの過去の行動に関する質問を要約して答える方法を学習するタスクを示します。
大規模な言語モデルを中核に持つ単一のシステムは、仮想ロボットの自己中心的なビデオ フレームと質問プロンプトが与えられた場合に、アクション シーケンスに関する質問を要約し、答えるようにトレーニングされます。
質問応答のトレーニングを可能にするために、仮想環境におけるロボットの動作エピソード中に物体、動作、および動作が発生した時間的順序に関する英語の質問と回答を自動的に生成する方法を開発します。
質問の要約と回答の両方を行うように 1 つのモデルをトレーニングすると、質問応答を通じて学習したオブジェクトの表現を、改善されたアクションの要約にゼロショットで転送できるようになります。
% は、要約するためのトレーニングで見られなかったオブジェクトを含んでいます。

要約(オリジナル)

When robots perform long action sequences, users will want to easily and reliably find out what they have done. We therefore demonstrate the task of learning to summarize and answer questions about a robot agent’s past actions using natural language alone. A single system with a large language model at its core is trained to both summarize and answer questions about action sequences given ego-centric video frames of a virtual robot and a question prompt. To enable training of question answering, we develop a method to automatically generate English-language questions and answers about objects, actions, and the temporal order in which actions occurred during episodes of robot action in the virtual environment. Training one model to both summarize and answer questions enables zero-shot transfer of representations of objects learned through question answering to improved action summarization. % involving objects not seen in training to summarize.

arxiv情報

著者 Chad DeChant,Iretiayo Akinola,Daniel Bauer
発行日 2023-06-16 15:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク