要約
マルチモーダル大手言語モデル(MLLMS)は、ビデオを総合的に理解する上で強力なパフォーマンスを実証していますが、ストリーミング動画-Videosを処理する能力は、視覚イベントのシーケンスとして扱われます。
直感的に、過去のイベントを記憶として活用すると、現在のイベントの文脈的および時間的理解を豊かにすることができます。
この論文では、コンテキストとして記憶を活用することで、MLLMがビデオイベントをよりよく理解するのに役立つことを示しています。
ただし、そのような記憶は前の出来事の予測に依存しているため、誤った情報が含まれている可能性があり、混乱と劣化したパフォーマンスにつながる可能性があります。
これに対処するために、メモリが強化されたイベントの理解のために、記憶を緩和することを緩和する、コンパブレーションを意識したメモリ修正方法を提案します。
要約(オリジナル)
Multimodal large language models (MLLMs) have demonstrated strong performance in understanding videos holistically, yet their ability to process streaming videos-videos are treated as a sequence of visual events-remains underexplored. Intuitively, leveraging past events as memory can enrich contextual and temporal understanding of the current event. In this paper, we show that leveraging memories as contexts helps MLLMs better understand video events. However, because such memories rely on predictions of preceding events, they may contain misinformation, leading to confabulation and degraded performance. To address this, we propose a confabulation-aware memory modification method that mitigates confabulated memory for memory-enhanced event understanding.
arxiv情報
著者 | Gengyuan Zhang,Mingcong Ding,Tong Liu,Yao Zhang,Volker Tresp |
発行日 | 2025-02-21 13:31:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google