要約
なじみのないシナリオでオブジェクトを検索することは、盲人にとって挑戦的な作業です。
ターゲットオブジェクトを指定し、それを検出し、ユーザーの意図に従って詳細情報を収集することが含まれます。
ただし、既存の説明および検出ベースの支援技術は、インタラクティブオブジェクト検索タスクの多面的な性質を十分にサポートしていません。
盲目の人々によるインタラクティブオブジェクト検索のためのオープンボキャブラリーウェアラブルアシスタントシステムであるObjectFinderを提示します。
ObjectFinderを使用すると、ユーザーは柔軟な言葉遣いを使用してターゲットオブジェクトを照会できます。
ターゲットオブジェクトが検出されると、距離と方向を含むエゴセントリックローカリゼーション情報をリアルタイムで提供します。
その後、ユーザーはさまざまなブランチを開始して、ターゲットオブジェクトへの目的に基づいて詳細情報を収集します。
ObjectFinderは、オープンボキャブラリーモデルのシームレスな組み合わせ、つまりオープンボキャブラリーオブジェクト検出器とマルチモーダルの大手言語モデルを搭載しています。
ObjectFinderの設計コンセプトとその開発は、ブラインド共同設計者と協力して実施されました。
ObjectFinderを評価するために、8人の盲目の参加者との探索的ユーザー調査を実施しました。
ObjectFinderをBemyaiとGoogle Lookout、人気のある説明と検出ベースのアシスタントアプリケーションと比較しました。
私たちの調査結果は、ほとんどの参加者がオブジェクトファインダーでより独立していると感じ、シーンのコンテキストの収集とナビゲーションを強化し、アクティブなターゲット識別を可能にしたため、オブジェクト検索を好むことを示しています。
最後に、インタラクティブなオブジェクト検索をサポートするための将来の支援システムへの影響について説明します。
要約(オリジナル)
Searching for objects in unfamiliar scenarios is a challenging task for blind people. It involves specifying the target object, detecting it, and then gathering detailed information according to the user’s intent. However, existing description- and detection-based assistive technologies do not sufficiently support the multifaceted nature of interactive object search tasks. We present ObjectFinder, an open-vocabulary wearable assistive system for interactive object search by blind people. ObjectFinder allows users to query target objects using flexible wording. Once the target object is detected, it provides egocentric localization information in real-time, including distance and direction. Users can then initiate different branches to gather detailed information based on their intent towards the target object, such as navigating to it or perceiving its surroundings. ObjectFinder is powered by a seamless combination of open-vocabulary models, namely an open-vocabulary object detector and a multimodal large language model. The ObjectFinder design concept and its development were carried out in collaboration with a blind co-designer. To evaluate ObjectFinder, we conducted an exploratory user study with eight blind participants. We compared ObjectFinder to BeMyAI and Google Lookout, popular description- and detection-based assistive applications. Our findings indicate that most participants felt more independent with ObjectFinder and preferred it for object search, as it enhanced scene context gathering and navigation, and allowed for active target identification. Finally, we discuss the implications for future assistive systems to support interactive object search.
arxiv情報
著者 | Ruiping Liu,Jiaming Zhang,Angela Schön,Karin Müller,Junwei Zheng,Kailun Yang,Anhong Guo,Kathrin Gerling,Rainer Stiefelhagen |
発行日 | 2025-04-30 17:42:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google