EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata

要約

特定の写真を記録したカメラに関する情報をキャプチャする視覚的表現を学習します。
これを行うために、画像パッチと、カメラが画像ファイルに自動的に挿入する EXIF メタデータとの間のマルチモーダル埋め込みをトレーニングします。
私たちのモデルは、このメタデータを単純にテキストに変換してからトランスフォーマーで処理することによって表します。
私たちが学習した機能は、下流の画像フォレンジックおよびキャリブレーション タスクにおいて、他の自己監視機能および監視機能よりも大幅に優れています。
特に、画像内のすべてのパッチの視覚的な埋め込みをクラスタリングすることにより、スプライスされた画像領域の「ゼロ ショット」の位置を特定することに成功しました。

要約(オリジナル)

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions ‘zero shot’ by clustering the visual embeddings for all of the patches within an image.

arxiv情報

著者 Chenhao Zheng,Ayush Shrivastava,Andrew Owens
発行日 2023-01-11 18:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク