要約
オブジェクトの合成、多様な視覚シーンの画像にオブジェクトを配置および調和させるタスクは、生成モデルの台頭により、コンピュータービジョンの重要なタスクとなっています。
ただし、既存のデータセットには、実際のシナリオを包括的に調査するために必要な多様性と規模がありません。
Orida(オブジェクト中心の現実世界画像構成データセット)を紹介します。これは、多様な位置とシーンで表示されている200個のユニークなオブジェクトを備えた30,000を超える画像を含む大規模でリアルキャプチャされたデータセットです。
Oridaには、2種類のデータがあります。事実上の市販の構造セットと事実のみのシーンです。
事実上のカウンターファクトルセットは、シーン内の異なる位置にあるオブジェクトを示す4つの事実画像と、オブジェクトのないシーンの1つの反事実(または背景)画像で構成され、シーンごとに5つの画像が生まれます。
事実のみのシーンには、特定のコンテキストにオブジェクトを含む単一の画像が含まれ、さまざまな環境を拡大します。
私たちの知る限り、Oridaは、実際の画像構成の規模と複雑さを備えた最初の公開データセットです。
広範な分析と実験は、オブジェクトの合成におけるさらなる研究を進めるためのリソースとしてのオリダの価値を強調しています。
要約(オリジナル)
Object compositing, the task of placing and harmonizing objects in images of diverse visual scenes, has become an important task in computer vision with the rise of generative models. However, existing datasets lack the diversity and scale required to comprehensively explore real-world scenarios. We introduce ORIDa (Object-centric Real-world Image Composition Dataset), a large-scale, real-captured dataset containing over 30,000 images featuring 200 unique objects, each of which is presented across varied positions and scenes. ORIDa has two types of data: factual-counterfactual sets and factual-only scenes. The factual-counterfactual sets consist of four factual images showing an object in different positions within a scene and a single counterfactual (or background) image of the scene without the object, resulting in five images per scene. The factual-only scenes include a single image containing an object in a specific context, expanding the variety of environments. To our knowledge, ORIDa is the first publicly available dataset with its scale and complexity for real-world image composition. Extensive analysis and experiments highlight the value of ORIDa as a resource for advancing further research in object compositing.
arxiv情報
著者 | Jinwoo Kim,Sangmin Han,Jinho Jeong,Jiwoo Choi,Dongyoung Kim,Seon Joo Kim |
発行日 | 2025-06-10 16:36:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google