PhotoBot: Reference-Guided Interactive Photography via Natural Language


人間の高度な言語ガイダンスとロボット写真家の間の相互作用に基づいて、完全に自動化された写真取得のためのフレームワークである PhotoBot を紹介します。
視覚言語モデル (VLM) とオブジェクト検出器を活用して、テキストによる説明を通じて参照画像を特徴付け、次に大規模言語モデル (LLM) を使用して、テキストベースの推論によるユーザーの言語クエリに基づいて関連する参照画像を取得します。
これらの機能を使用して、パースペクティブ n ポイント (PnP) 問題を解決することで、RGB-D カメラの推奨されるポーズ調整を計算します。
私たちのユーザー調査によると、人間のフィードバックによって測定されると、PhotoBot で撮影された写真は、ユーザー自身が撮影した写真よりも見た目が美しい場合が多いことがわかっています。
また、PhotoBot が絵画などの他の参照ソースに一般化できることも示します。


We introduce PhotoBot, a framework for fully automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to the user via reference images that are selected from a curated gallery. We leverage a visual language model (VLM) and an object detector to characterize the reference images via textual descriptions and then use a large language model (LLM) to retrieve relevant reference images based on a user’s language query through text-based reasoning. To correspond the reference image and the observed scene, we exploit pre-trained features from a vision transformer capable of capturing semantic similarity across marked appearance variations. Using these features, we compute suggested pose adjustments for an RGB-D camera by solving a perspective-n-point (PnP) problem. We demonstrate our approach using a manipulator equipped with a wrist camera. Our user studies show that photos taken by PhotoBot are often more aesthetically pleasing than those taken by users themselves, as measured by human feedback. We also show that PhotoBot can generalize to other reference sources such as paintings.


著者 Oliver Limoyo,Jimmy Li,Dmitriy Rivkin,Jonathan Kelly,Gregory Dudek
発行日 2024-12-26 03:38:10+00:00
arxivサイト arxiv_id(pdf)

