DegustaBot: Zero-Shot Visual Preference Estimation for Personalized Multi-Object Rearrangement

要約

De gustibus non est disputandum (「他人の好みを考慮することはできない」) は、人生における解決策の多くが人々の個人的な好みによって決定されることを説明する一般的なラテン語の格言です。
特に、多くの家事は、シーンの視覚的な美しさなどの個人的な好みを考慮した場合にのみ完全に成功したと見なされます。
たとえば、テーブルセッティングは、それぞれの物の色、形、素材を考慮せずに、西洋のテーブルセッティングの礼儀作法の伝統的なルールに従って食器を配置することで最適化できますが、これは特定の人にとって完全に満足のいく解決策ではない可能性があります。
この目的に向けて、個人の好みに応じて家庭の複数のオブジェクトの再配置タスクを解決する視覚的好み学習アルゴリズムである DegustaBot を紹介します。
これを行うために、新しいゼロショット視覚プロンプト技術を備えたインターネット規模の事前トレーニング済み視覚および言語基礎モデル (VLM) を使用します。
私たちの方法を評価するために、シミュレートされたテーブル設定タスクで自然主義的な個人の好みの大規模なデータセットを収集し、個人の好みに基づいて成功を判断するための 2 つの新しい指標を開発するためにユーザー調査を実施します。
これは難しい問題であり、モデルの予測の 50% は少なくとも 20% の人に受け入れられる可能性が高いことがわかりました。

要約(オリジナル)

De gustibus non est disputandum (‘there is no accounting for others’ tastes’) is a common Latin maxim describing how many solutions in life are determined by people’s personal preferences. Many household tasks, in particular, can only be considered fully successful when they account for personal preferences such as the visual aesthetic of the scene. For example, setting a table could be optimized by arranging utensils according to traditional rules of Western table setting decorum, without considering the color, shape, or material of each object, but this may not be a completely satisfying solution for a given person. Toward this end, we present DegustaBot, an algorithm for visual preference learning that solves household multi-object rearrangement tasks according to personal preference. To do this, we use internet-scale pre-trained vision-and-language foundation models (VLMs) with novel zero-shot visual prompting techniques. To evaluate our method, we collect a large dataset of naturalistic personal preferences in a simulated table-setting task, and conduct a user study in order to develop two novel metrics for determining success based on personal preference. This is a challenging problem and we find that 50% of our model’s predictions are likely to be found acceptable by at least 20% of people.

arxiv情報

著者 Benjamin A. Newman,Pranay Gupta,Kris Kitani,Yonatan Bisk,Henny Admoni,Chris Paxton
発行日 2024-07-11 21:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク