要約
マルチモーダル大規模言語モデル (LMM) は、世界の知識と問題解決能力に優れています。
新しいスマート アクセサリは、世界に向けたカメラとコンテキスト AI の使用を通じて、人間と LMM の間にシームレスなインターフェイスを提供することを目指しています。
しかし、これらのウェアラブル コンピューティング システムは、ユーザーの注意を理解していません。
コンテキスト AI の新しいユーザー インタラクション パラダイムとして GazeGPT を紹介します。
GazeGPT は視線追跡を使用して、LMM が世界を向いたカメラのビュー内のどのオブジェクトにユーザーが注目しているかを理解できるようにします。
広範なユーザー評価を使用して、この視線依存メカニズムが代替メカニズムよりも高速かつ正確なポインティング メカニズムであることを示します。
犬種の分類タスクにおける精度を大幅に向上させることにより、人間の能力を強化します。
そして、それは、コンテキスト AI の頭や身体主導の選択メカニズムよりも自然であると一貫してランク付けされています。
さらに、GazeGPT が将来の AI 駆動パーソナル アシスタントの一部としてユーザーにとって重要な価値を持つ可能性があることを示唆するさまざまなアプリケーション シナリオのプロトタイプを作成しました。
要約(オリジナル)
Multimodal large language models (LMMs) excel in world knowledge and problem-solving abilities. Through the use of a world-facing camera and contextual AI, emerging smart accessories aim to provide a seamless interface between humans and LMMs. Yet, these wearable computing systems lack an understanding of the user’s attention. We introduce GazeGPT as a new user interaction paradigm for contextual AI. GazeGPT uses eye tracking to help the LMM understand which object in the world-facing camera view a user is paying attention to. Using extensive user evaluations, we show that this gaze-contingent mechanism is a faster and more accurate pointing mechanism than alternatives; that it augments human capabilities by significantly improving their accuracy in a dog-breed classification task; and that it is consistently ranked as more natural than head- or body-driven selection mechanisms for contextual AI. Moreover, we prototype a variety of application scenarios that suggest GazeGPT could be of significant value to users as part of future AI-driven personal assistants.
arxiv情報
著者 | Robert Konrad,Nitish Padmanaban,J. Gabriel Buckmaster,Kevin C. Boyle,Gordon Wetzstein |
発行日 | 2024-01-31 05:21:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google