EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata

要約

【タイトル】
EXIF情報を言語的表現として学習:画像とカメラメタデータのクロスモーダル関連性の学習

【要約】
・カメラメタデータと画像のパッチ間のマルチモーダルな埋め込みを学習することで、撮影に使用されたカメラに関する情報を含むビジュアル表現を学習
・モデルは、メタデータをテキストに変換し、トランスフォーマーで処理することでそれを表現する。
・学習した特徴は、他の自己教師あり/なし特徴よりも、イメージフォーレンジックやキャリブレーションタスクで有意に高いパフォーマンスを発揮する
・特に、イメージ内のパッチのビジュアル埋め込みをクラスタリングすることで、一発で仮想画像領域の位置を見つけることに成功している。

要約(オリジナル)

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions ‘zero shot’ by clustering the visual embeddings for all of the patches within an image.

arxiv情報

著者 Chenhao Zheng,Ayush Shrivastava,Andrew Owens
発行日 2023-04-13 22:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク