要約
インテリジェントな支援には、理解するだけでなく行動も含まれます。
既存の自己中心的なビデオ データセットには、ビデオの豊富な注釈が含まれていますが、インテリジェント アシスタントがその瞬間に実行できるアクションの注釈は含まれていません。
このギャップに対処するために、Ego4D データセット用の個人行動推奨アノテーションの新しいセットである PARSE-Ego4D をリリースします。
これらのアノテーションの生成と評価には、多段階のアプローチが採用されています。
まず、プロンプト エンジニアリングされた大規模言語モデル (LLM) を使用して、コンテキストを認識したアクションの提案を生成し、18,000 を超えるアクションの提案を特定しました。
これらの総合的なアクションの提案は価値がありますが、LLM に固有の制限があるため、人間による評価が必要になります。
高品質でユーザー中心のレコメンデーションを保証するために、PARSE-Ego4D のすべてについて人間の好みに基づいた大規模な人間によるアノテーション研究を実施しました。
私たちは評価者間の合意を分析し、参加者の主観的な好みを評価します。
合成データセットと完全な人間による注釈に基づいて、自己中心的なビデオに基づいたアクション提案のためのいくつかの新しいタスクを提案します。
レイテンシーとエネルギー要件を改善する新しいソリューションを推奨します。
PARSE-Ego4D のアノテーションは、拡張現実システムおよび仮想現実システム用のアクション推奨システムの構築に取り組んでいる研究者や開発者をサポートします。
要約(オリジナル)
Intelligent assistance involves not only understanding but also action. Existing ego-centric video datasets contain rich annotations of the videos, but not of actions that an intelligent assistant could perform in the moment. To address this gap, we release PARSE-Ego4D, a new set of personal action recommendation annotations for the Ego4D dataset. We take a multi-stage approach to generating and evaluating these annotations. First, we used a prompt-engineered large language model (LLM) to generate context-aware action suggestions and identified over 18,000 action suggestions. While these synthetic action suggestions are valuable, the inherent limitations of LLMs necessitate human evaluation. To ensure high-quality and user-centered recommendations, we conducted a large-scale human annotation study that provides grounding in human preferences for all of PARSE-Ego4D. We analyze the inter-rater agreement and evaluate subjective preferences of participants. Based on our synthetic dataset and complete human annotations, we propose several new tasks for action suggestions based on ego-centric videos. We encourage novel solutions that improve latency and energy requirements. The annotations in PARSE-Ego4D will support researchers and developers who are working on building action recommendation systems for augmented and virtual reality systems.
arxiv情報
著者 | Steven Abreu,Tiffany D. Do,Karan Ahuja,Eric J. Gonzalez,Lee Payne,Daniel McDuff,Mar Gonzalez-Franco |
発行日 | 2024-07-25 13:29:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google