要約
この論文では、特に歴史的な写真に焦点を当て、視覚コンテンツ内の時間情報を識別するコンピューター ビジョン モデルの能力を調査します。
私たちは、マルチモーダル言語および視覚モデルである CLIP のオープンソース実装である OpenCLIP を使用して画像の年代を調査します。
私たちの実験は、ゼロショット分類、微調整、視覚コンテンツの分析という 3 つのステップで構成されています。
私たちは、1950 年から 1999 年までの 39,866 枚のグレースケールの歴史的報道写真を含む \textit{De Boer Scene Detection} データセットを使用します。結果は、ゼロショット分類は画像年代測定には比較的効果がなく、過去の日付の予測に偏っていることを示しています。
。
ロジスティック分類子を使用して OpenCLIP を微調整すると、パフォーマンスが向上し、バイアスが排除されます。
さらに、私たちの分析では、バス、車、猫、犬、人物が写っている画像の方がより正確に年代が特定されており、時間的マーカーの存在を示唆していることが明らかになりました。
この研究は、画像の年代測定における OpenCLIP のような機械学習モデルの可能性を強調し、正確な時間分析のための微調整の重要性を強調しています。
今後の研究では、これらの発見をカラー写真や多様なデータセットに応用することを検討する必要があります。
要約(オリジナル)
This paper explores the capacity of computer vision models to discern temporal information in visual content, focusing specifically on historical photographs. We investigate the dating of images using OpenCLIP, an open-source implementation of CLIP, a multi-modal language and vision model. Our experiment consists of three steps: zero-shot classification, fine-tuning, and analysis of visual content. We use the \textit{De Boer Scene Detection} dataset, containing 39,866 gray-scale historical press photographs from 1950 to 1999. The results show that zero-shot classification is relatively ineffective for image dating, with a bias towards predicting dates in the past. Fine-tuning OpenCLIP with a logistic classifier improves performance and eliminates the bias. Additionally, our analysis reveals that images featuring buses, cars, cats, dogs, and people are more accurately dated, suggesting the presence of temporal markers. The study highlights the potential of machine learning models like OpenCLIP in dating images and emphasizes the importance of fine-tuning for accurate temporal analysis. Future research should explore the application of these findings to color photographs and diverse datasets.
arxiv情報
著者 | Alexandra Barancová,Melvin Wevers,Nanne van Noord |
発行日 | 2023-10-10 13:51:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google