要約
私たちの仕事は、大規模な言語モデルをロボットの計画とサンプリングに使用できる方法、特に自動化された写真ドキュメンテーションのコンテキストを調べています。
具体的には、汎用言語 (LM) および視覚言語 (VLM) モデルの最近の進歩を活用して、並外れたレベルのセマンティック認識を備えた写真撮影ロボットを作成する方法を示します。
イベントの高レベルの説明が与えられると、LM を使用して、写真家がイベントでキャプチャすることを期待する写真の説明の自然言語リストを生成します。
次に、VLM を使用して、ロボットのビデオ ストリーム内のこれらの説明に最も一致するものを特定します。
私たちの方法によって生成された写真ポートフォリオは、既存の方法によって生成されたものよりも、人間の評価者によってイベントにより適切であると一貫して評価されています。
要約(オリジナル)
Our work examines the way in which large language models can be used for robotic planning and sampling, specifically the context of automated photographic documentation. Specifically, we illustrate how to produce a photo-taking robot with an exceptional level of semantic awareness by leveraging recent advances in general purpose language (LM) and vision-language (VLM) models. Given a high-level description of an event we use an LM to generate a natural-language list of photo descriptions that one would expect a photographer to capture at the event. We then use a VLM to identify the best matches to these descriptions in the robot’s video stream. The photo portfolios generated by our method are consistently rated as more appropriate to the event by human evaluators than those generated by existing methods.
arxiv情報
著者 | Dmitriy Rivkin,Gregory Dudek,Nikhil Kakodkar,David Meger,Oliver Limoyo,Xue Liu,Francois Hogan |
発行日 | 2023-02-15 20:21:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google