要約
PhotoBotを紹介する。PhotoBotは、高度な人間の言語ガイダンスとロボット写真家の相互作用に基づく、完全自動化された写真取得のためのフレームワークである。我々は、キュレーションされたギャラリーから選択された参照画像を介して、ユーザーに写真撮影の提案を伝えることを提案する。我々は、視覚言語モデル(VLM)とオブジェクト検出器を活用し、テキスト記述により参照画像を特徴付け、大規模言語モデル(LLM)を用いて、テキストベースの推論により、ユーザの言語クエリに基づいて関連する参照画像を検索する。参照画像と観察シーンの対応付けを行うために、我々は、顕著な外観の変化に渡る意味的類似性を捉えることができる視覚変換器から事前に訓練された特徴量を利用する。これらの特徴量を用いて、遠近n点(PnP)問題を解くことにより、RGB-Dカメラの提案ポーズ調整を計算する。我々は、手首カメラを搭載したマニピュレータを用いて我々のアプローチを実証する。我々のユーザースタディによると、PhotoBotによって撮影された写真は、人間のフィードバックによって測定されるように、ユーザー自身が撮影した写真よりも美的に優れていることが多い。また、PhotoBotは絵画のような他の参照ソースにも一般化できることを示す。
要約(オリジナル)
We introduce PhotoBot, a framework for fully automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to the user via reference images that are selected from a curated gallery. We leverage a visual language model (VLM) and an object detector to characterize the reference images via textual descriptions and then use a large language model (LLM) to retrieve relevant reference images based on a user’s language query through text-based reasoning. To correspond the reference image and the observed scene, we exploit pre-trained features from a vision transformer capable of capturing semantic similarity across marked appearance variations. Using these features, we compute suggested pose adjustments for an RGB-D camera by solving a perspective-n-point (PnP) problem. We demonstrate our approach using a manipulator equipped with a wrist camera. Our user studies show that photos taken by PhotoBot are often more aesthetically pleasing than those taken by users themselves, as measured by human feedback. We also show that PhotoBot can generalize to other reference sources such as paintings.
arxiv情報
著者 | Oliver Limoyo,Jimmy Li,Dmitriy Rivkin,Jonathan Kelly,Gregory Dudek |
発行日 | 2024-07-04 16:08:38+00:00 |
arxivサイト | arxiv_id(pdf) |