Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

要約

視覚表現からの時間を理解することは基本的な認知スキルですが、マルチモーダルの大手言語モデル(MLLM)にとっては課題のままです。
この作業では、アナログクロックと年間カレンダーを介して時間と日付を解釈する際にMLLMの機能を調査します。
これを容易にするために、2つのサブセットで構成される構造化されたデータセットをキュレーションしました:1)$ \ textit {clockqa} $。
-HAND CLOCKS $-$と時間関連の質問とペアリング。
および2)$ \ textit {calendarqa} $。これは、一般的に既知の日付(クリスマス、元日)から計算派生(100年目または153日目の15日目)に至るまでの質問を含む年間カレンダー画像で構成されています。
時間関連の視覚データを提示した場合、MLLMが視覚認識、数値推論、および時間的推論を実行する方法を分析することを目指しています。
私たちの評価は、最近の進歩にもかかわらず、時間を確実に理解することはMLLMにとって重要な課題であることを示しています。

要約(オリジナル)

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) $\textit{ClockQA}$, which comprises various types of clock styles$-$standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks$-$paired with time related questions; and 2) $\textit{CalendarQA}$, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year’s Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

arxiv情報

著者 Rohit Saxena,Aryo Pradipta Gema,Pasquale Minervini
発行日 2025-02-07 17:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク