Spatial-Semantic Collaborative Cropping for User Generated Content

要約

大量のユーザー生成コンテンツ (UGC) が毎日インターネットにアップロードされ、クライアント側 (モバイルや PC など) を通じて世界中の人々に表示されます。
これには、さまざまなデバイス上で特定のアスペクト比内で美しいサムネイルを生成するトリミング アルゴリズムが必要です。
しかし、既存の画像トリミング作業は主にランドマークや風景の画像に焦点を当てており、UGC で複雑な背景を持つ複数のオブジェクト間の関係をモデル化することができません。
さらに、以前の方法は、UGC トリミングにとって重要なコンテンツの完全性を無視して、トリミングされた画像の美しさを考慮するだけでした。
この論文では、新しいクロッピング ベンチマークを伴う、任意のユーザー生成コンテンツ用の空間セマンティック協調クロッピング ネットワーク (S2CNet) を提案します。
具体的には、まず潜在的なオブジェクトの視覚遺伝子をマイニングします。
次に、提案された適応型注意グラフは、このタスクを視覚ノード上の情報関連付けの手順として再キャストします。
基礎となる空間的および意味的関係は、微分可能なメッセージ パッシングを通じて最終的にクロップ候補に集中化され、ネットワークが美観とコンテンツの完全性の両方を効率的に維持するのに役立ちます。
提案されている UGCrop5K およびその他の公開データセットに関する広範な実験により、最先端の対応するデータセットに対する私たちのアプローチの優位性が実証されています。
私たちのプロジェクトは https://github.com/suyukun666/S2CNet で入手できます。

要約(オリジナル)

A large amount of User Generated Content (UGC) is uploaded to the Internet daily and displayed to people world-widely through the client side (e.g., mobile and PC). This requires the cropping algorithms to produce the aesthetic thumbnail within a specific aspect ratio on different devices. However, existing image cropping works mainly focus on landmark or landscape images, which fail to model the relations among the multi-objects with the complex background in UGC. Besides, previous methods merely consider the aesthetics of the cropped images while ignoring the content integrity, which is crucial for UGC cropping. In this paper, we propose a Spatial-Semantic Collaborative cropping network (S2CNet) for arbitrary user generated content accompanied by a new cropping benchmark. Specifically, we first mine the visual genes of the potential objects. Then, the suggested adaptive attention graph recasts this task as a procedure of information association over visual nodes. The underlying spatial and semantic relations are ultimately centralized to the crop candidate through differentiable message passing, which helps our network efficiently to preserve both the aesthetics and the content integrity. Extensive experiments on the proposed UGCrop5K and other public datasets demonstrate the superiority of our approach over state-of-the-art counterparts. Our project is available at https://github.com/suyukun666/S2CNet.

arxiv情報

著者 Yukun Su,Yiwen Cao,Jingliang Deng,Fengyun Rao,Qingyao Wu
発行日 2024-01-16 03:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク