Episodic Memory Verbalization using Hierarchical Representations of Life-Long Robot Experience


これまでの研究では、ルールベースのシステムまたは微調整された深層モデルを適用して、エピソード データの短い (数分の長さの) ストリームを言語化していたため、一般化と転送可能性が制限されていました。
このために、エピソード記憶 (EM) からツリー状のデータ構造を導き出します。下位レベルは生の知覚および固有受容データを表し、上位レベルはイベントを自然言語概念に抽象化します。
エクスペリエンス ストリームから構築されたこのような階層表現を考慮して、大規模な言語モデルをエージェントとして適用し、ユーザーのクエリに応じて EM を対話的に検索し、ツリー ノードを動的に展開して (最初は折りたたまれていました)、関連情報を見つけます。


Verbalization of robot experience, i.e., summarization of and question answering about a robot’s past, is a crucial ability for improving human-robot interaction. Previous works applied rule-based systems or fine-tuned deep models to verbalize short (several-minute-long) streams of episodic data, limiting generalization and transferability. In our work, we apply large pretrained models to tackle this task with zero or few examples, and specifically focus on verbalizing life-long experiences. For this, we derive a tree-like data structure from episodic memory (EM), with lower levels representing raw perception and proprioception data, and higher levels abstracting events to natural language concepts. Given such a hierarchical representation built from the experience stream, we apply a large language model as an agent to interactively search the EM given a user’s query, dynamically expanding (initially collapsed) tree nodes to find the relevant information. The approach keeps computational costs low even when scaling to months of robot experience data. We evaluate our method on simulated household robot data, human egocentric videos, and real-world robot recordings, demonstrating its flexibility and scalability.


著者 Leonard Bärmann,Chad DeChant,Joana Plewnia,Fabian Peller-Konrad,Daniel Bauer,Tamim Asfour,Alex Waibel
発行日 2024-09-26 10:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク