要約
視覚言語モデルは近年目覚ましい進歩を見せています。
ただし、既存のモデルは主にターンベースのインタラクションに限定されており、各ターンはユーザーによってステップ実行される (つまり、プロンプトされる) 必要があります。
AI モデルが、展開中の状況に基づいてタイムリーな応答やフィードバックをリアルタイムで積極的に提供できる、オープンエンドの非同期インタラクションは、未解決の課題です。
この研究では、QEVD ベンチマークとデータセットを紹介します。このベンチマークは、フィットネス コーチングという困難ではあるが制御された現実世界の領域における人間と AI の相互作用を調査します。このタスクでは、ライブ ユーザー アクティビティを監視し、即座にフィードバックを提供することが本質的に必要です。
このベンチマークでは、人間の複雑な行動を認識し、起こり得る間違いを特定し、リアルタイムで適切なフィードバックを提供するための視覚言語モデルが必要です。
私たちの実験は、そのような非同期の状況に応じたインタラクションに対する既存の最先端の視覚言語モデルの限界を明らかにしました。
これを動機として、適切なタイミングで適切なフィードバックを提供して人間のアクションに非同期的に応答できる、シンプルなエンドツーエンドのストリーミング ベースラインを提案します。
要約(オリジナル)
Vision-language models have shown impressive progress in recent years. However, existing models are largely limited to turn-based interactions, where each turn must be stepped (i.e., prompted) by the user. Open-ended, asynchronous interactions, where an AI model may proactively deliver timely responses or feedback based on the unfolding situation in real-time, are an open challenge. In this work, we present the QEVD benchmark and dataset, which explores human-AI interaction in the challenging, yet controlled, real-world domain of fitness coaching — a task which intrinsically requires monitoring live user activity and providing immediate feedback. The benchmark requires vision-language models to recognize complex human actions, identify possible mistakes, and provide appropriate feedback in real-time. Our experiments reveal the limitations of existing state-of-the-art vision-language models for such asynchronous situated interactions. Motivated by this, we propose a simple end-to-end streaming baseline that can respond asynchronously to human actions with appropriate feedback at the appropriate time.
arxiv情報
著者 | Sunny Panchal,Apratim Bhattacharyya,Guillaume Berger,Antoine Mercier,Cornelius Bohm,Florian Dietrichkeit,Reza Pourreza,Xuanlin Li,Pulkit Madan,Mingu Lee,Mark Todorovich,Ingo Bax,Roland Memisevic |
発行日 | 2024-12-23 17:06:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google