LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos

要約

この論文では、自然言語の質問応答と検索を通じて長文の自己中心的なビデオグラフィック記憶にアクセスするための新しいフレームワークである LifelongMemory を紹介します。
LifelongMemory は、カメラ装着者の簡潔なビデオ アクティビティの説明を生成し、事前トレーニングされた大規模言語モデルのゼロショット機能を活用して、長い形式のビデオ コンテキストに対する推論を実行します。
さらに、Lifelong Memory は、自信と説明モジュールを使用して、自信があり、高品質で、解釈可能な回答を生成します。
私たちのアプローチは、質問応答の EgoSchema ベンチマークで最先端のパフォーマンスを達成し、Ego4D の自然言語クエリ (NLQ) の課題で非常に競争力があります。
コードは https://github.com/Agentic-Learning-AI-Lab/lifelong-memory で入手できます。

要約(オリジナル)

In this paper we introduce LifelongMemory, a new framework for accessing long-form egocentric videographic memory through natural language question answering and retrieval. LifelongMemory generates concise video activity descriptions of the camera wearer and leverages the zero-shot capabilities of pretrained large language models to perform reasoning over long-form video context. Furthermore, Lifelong Memory uses a confidence and explanation module to produce confident, high-quality, and interpretable answers. Our approach achieves state-of-the-art performance on the EgoSchema benchmark for question answering and is highly competitive on the natural language query (NLQ) challenge of Ego4D. Code is available at https://github.com/Agentic-Learning-AI-Lab/lifelong-memory.

arxiv情報

著者 Ying Wang,Yanlai Yang,Mengye Ren
発行日 2024-03-29 15:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク