OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering

要約

人々は写真、スクリーンショット、ビデオを通じて思い出を記録することがよくあります。
既存の AI ベースのツールでは、自然言語を使用してこのデータをクエリできますが、ほとんどの場合、写真内の特定のオブジェクトなどの個々の情報の取得のみをサポートしており、一連のイベントなどの相互接続された記憶の解釈を含む、より複雑なクエリに答えるのは困難です。
私たちは 1 か月の日記調査を実施して現実的なユーザーのクエリを収集し、キャプチャされた記憶と統合するために必要なコンテキスト情報の分類を生成しました。
次に、コンテキスト情報の抽出と推測を必要とする個人の記憶に関する複雑な質問に答えることができる新しいシステムである OmniQuery を紹介します。
OmniQuery は、相互接続された複数の記憶から散在するコンテキスト情報を統合することで単一のキャプチャされた記憶を拡張し、関連する記憶を取得し、大規模言語モデル (LLM) を使用して包括的な回答を導き出します。
人間による評価では、OmniQuery の有効性が 71.5% の精度で示され、74.5% の確率で勝利または同点となり、従来の RAG システムを上回りました。

要約(オリジナル)

People often capture memories through photos, screenshots, and videos. While existing AI-based tools enable querying this data using natural language, they mostly only support retrieving individual pieces of information like certain objects in photos and struggle with answering more complex queries that involve interpreting interconnected memories like event sequences. We conducted a one-month diary study to collect realistic user queries and generated a taxonomy of necessary contextual information for integrating with captured memories. We then introduce OmniQuery, a novel system that is able to answer complex personal memory-related questions that require extracting and inferring contextual information. OmniQuery augments single captured memories through integrating scattered contextual information from multiple interconnected memories, retrieves relevant memories, and uses a large language model (LLM) to comprehensive answers. In human evaluations, we show the effectiveness of OmniQuery with an accuracy of 71.5%, and it outperformed a conventional RAG system, winning or tying in 74.5% of the time.

arxiv情報

著者 Jiahao Nick Li,Zhuohao,Zhang,Jiaju Ma
発行日 2024-09-12 17:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク