A Survey of Robotic Language Grounding: Tradeoffs between Symbols and Embeddings

要約

大規模な言語モデルを使用すると、ロボットはこれまでよりも柔軟に、より高い能力で言語を理解できるようになります。
この調査では、最近の文献をレビューし、2 つの極を持つスペクトルに位置づけます。1) 言語と手動で定義された形式的な意味表現との間のマッピング、2) 言語と、低レベルのロボット ポリシーに直接変換される高次元ベクトル空間との間のマッピング。
形式的な表現を使用すると、言語の意味を正確に表現できるようになり、学習上の問題のサイズが制限され、解釈可能性と形式的な安全性の保証のためのフレームワークが得られます。
言語データと知覚データを高次元空間に埋め込む方法では、この手動で指定された記号構造が回避されるため、十分なデータが供給されるとより一般的になる可能性がありますが、トレーニングにはより多くのデータとコンピューティングが必要です。
それぞれのアプローチの利点とトレードオフについて議論し、両方の長所を実現する今後の作業の方向性を示して終了します。

要約(オリジナル)

With large language models, robots can understand language more flexibly and more capable than ever before. This survey reviews and situates recent literature into a spectrum with two poles: 1) mapping between language and some manually defined formal representation of meaning, and 2) mapping between language and high-dimensional vector spaces that translate directly to low-level robot policy. Using a formal representation allows the meaning of the language to be precisely represented, limits the size of the learning problem, and leads to a framework for interpretability and formal safety guarantees. Methods that embed language and perceptual data into high-dimensional spaces avoid this manually specified symbolic structure and thus have the potential to be more general when fed enough data but require more data and computing to train. We discuss the benefits and tradeoffs of each approach and finish by providing directions for future work that achieves the best of both worlds.

arxiv情報

著者 Vanya Cohen,Jason Xinyu Liu,Raymond Mooney,Stefanie Tellex,David Watkins
発行日 2024-06-22 13:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO パーマリンク