Self-supervised Photographic Image Layout Representation Learning

要約

画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換する重要なプロセスが、画像の検索、操作、生成などのさまざまなアプリケーションにわたってますます重要になっています。
この分野のほとんどのアプローチは、高価なラベル付きデータセットに大きく依存しており、モデリングおよび学習方法を写真画像レイアウトの特定のニュアンスに適応させることが著しく欠けています。
この不足により、写真画像レイアウトの学習プロセスが最適化されません。
私たちの研究では、これらの課題に直接取り組みます。
私たちは、さまざまなレベルのレイアウト情報をカプセル化する基本的なレイアウト プリミティブを定義し、これらを相互接続とともに異種グラフ構造にマッピングすることによって革新します。
このグラフは、ピクセル ドメイン内の複雑なレイアウト情報を明示的にキャプチャするために細心の注意を払って設計されています。
さらに前進して、これらのレイアウト グラフの効果的な自己教師あり学習のために戦略的に設計された、カスタマイズされた損失関数と組み合わせた新しい口実タスクを導入します。
この基盤に基づいて、これらの異種レイアウト グラフを正確な次元削減されたレイアウト表現に圧縮することに優れたオートエンコーダ ベースのネットワーク アーキテクチャを開発します。
さらに、より広範囲のレイアウト カテゴリとより豊富なセマンティクスを特徴とする LODB データセットを紹介します。これは、レイアウト表現学習方法の有効性を評価するための包括的なベンチマークとして機能します。
このデータセットに対する私たちの広範な実験により、写真画像のレイアウト表現学習の領域における私たちのアプローチの優れたパフォーマンスが実証されました。

要約(オリジナル)

In the domain of image layout representation learning, the critical process of translating image layouts into succinct vector forms is increasingly significant across diverse applications, such as image retrieval, manipulation, and generation. Most approaches in this area heavily rely on costly labeled datasets and notably lack in adapting their modeling and learning methods to the specific nuances of photographic image layouts. This shortfall makes the learning process for photographic image layouts suboptimal. In our research, we directly address these challenges. We innovate by defining basic layout primitives that encapsulate various levels of layout information and by mapping these, along with their interconnections, onto a heterogeneous graph structure. This graph is meticulously engineered to capture the intricate layout information within the pixel domain explicitly. Advancing further, we introduce novel pretext tasks coupled with customized loss functions, strategically designed for effective self-supervised learning of these layout graphs. Building on this foundation, we develop an autoencoder-based network architecture skilled in compressing these heterogeneous layout graphs into precise, dimensionally-reduced layout representations. Additionally, we introduce the LODB dataset, which features a broader range of layout categories and richer semantics, serving as a comprehensive benchmark for evaluating the effectiveness of layout representation learning methods. Our extensive experimentation on this dataset demonstrates the superior performance of our approach in the realm of photographic image layout representation learning.

arxiv情報

著者 Zhaoran Zhao,Peng Lu,Xujun Peng,Wenhao Guo
発行日 2024-08-20 17:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク