Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

要約

ドメイン一般化(DG)は、共有ラベルスペースの仮定の下で、1つ以上のソースドメインを活用する目に見えないテストドメインに一般化するモデルを学習する重要な問題です。
ただし、ほとんどのDGメソッドは、ターゲットラベルスペースの豊富なソースデータへのアクセスを想定しています。これは、ターゲットタスクと同じラベルスペースを取得することが法外に高価である多くの現実世界アプリケーションで過度に厳しいことを証明する要件です。
この設定では、監視されていないドメイン一般化(MUDG)問題のマルチモーダルバージョンに取り組みます。
私たちのフレームワークでは、ソースデータセットとターゲットタスクの間の関係を明示的に想定していません。
代わりに、ソースデータセットを共同ビジョン言語空間で正確かつ効率的に検索できるという前提にのみ依存しています。
Mudgの設定で3つの貢献をします。
第一に、テキストクエリと粗い量子化に使用される画像重心との間の距離が大きいため、クロスモーダルの近隣の近隣検索が低いリコールに苦しむことを理論的に示します。
したがって、ペア付きK-Meansを提案します。これは、画像スペースの代わりにCentroidをクエリスペースに保存することで最近隣接するリコールを改善する単純なクラスタリングアルゴリズムです。
第二に、ゼロショットの精度を向上させ、取得した画像データを多様化するように設計されたターゲットラベルの適応テキスト増強スキームを提案します。
最後に、下流の目標精度をさらに向上させるために、2つの単純だが効果的なコンポーネントを提示します。
それぞれのベンチマークで最先端の名前のみの転送、ソースフリーのDG、ゼロショット(ZS)メソッドと比較し、20の多様なデータセットで精度が一貫した改善を示します。
コードは利用可能です:https://github.com/chris210634/mudg

要約(オリジナル)

Domain generalization (DG) is an important problem that learns a model which generalizes to unseen test domains leveraging one or more source domains, under the assumption of shared label spaces. However, most DG methods assume access to abundant source data in the target label space, a requirement that proves overly stringent for numerous real-world applications, where acquiring the same label space as the target task is prohibitively expensive. For this setting, we tackle the multimodal version of the unsupervised domain generalization (MUDG) problem, which uses a large task-agnostic unlabeled source dataset during finetuning. Our framework does not explicitly assume any relationship between the source dataset and target task. Instead, it relies only on the premise that the source dataset can be accurately and efficiently searched in a joint vision-language space. We make three contributions in the MUDG setting. Firstly, we show theoretically that cross-modal approximate nearest neighbor search suffers from low recall due to the large distance between text queries and the image centroids used for coarse quantization. Accordingly, we propose paired k-means, a simple clustering algorithm that improves nearest neighbor recall by storing centroids in query space instead of image space. Secondly, we propose an adaptive text augmentation scheme for target labels designed to improve zero-shot accuracy and diversify retrieved image data. Lastly, we present two simple but effective components to further improve downstream target accuracy. We compare against state-of-the-art name-only transfer, source-free DG and zero-shot (ZS) methods on their respective benchmarks and show consistent improvement in accuracy on 20 diverse datasets. Code is available: https://github.com/Chris210634/mudg

arxiv情報

著者 Christopher Liao,Christian So,Theodoros Tsiligkaridis,Brian Kulis
発行日 2025-06-10 15:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap はコメントを受け付けていません

Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions

要約

ビジョン言語モデル(VLMS)の最近の研究は、蒸留と強化学習を通じて、言語モデルで観察された成功に似た、暗黙の長い形式のチェーンの推論を装備する可能性を中心としています。
しかし、非合理的なモデルは、すでにインターネット上に訓練および展開されていることはどうですか?
単にそれらを放棄すべきか、それとも隠された知識を引き出し、長い推論の痕跡を誘発することができる検索メカニズムに希望がありますか?
このホワイトペーパーでは、モデルのカルロツリー検索(MCTS)にインスパイアされたアルゴリズムを使用して、この可能性を調査し、サブクエストサバンスワーのペアをモデルの出力ストリームに注入します。
サブクエストがより広範な推論軌道内で潜在的な決定として機能する検索プロセスとしてのフレーミングの推論は、モデルが断片化された知識間で「ドットを接続する」のに役立ち、非合理モデルの拡張された推論トレースを生成するのに役立つことを示します。
3つのベンチマークで方法を評価し、一貫した改善を観察します。
特に、私たちのアプローチは、リベラルアーツにおける9%の大幅な増加を含む、MMMU-Proの全体的な改善を2%得てもたらします。

要約(オリジナル)

Recent research in vision-language models (VLMs) has centered around the possibility of equipping them with implicit long-form chain-of-thought reasoning — akin to the success observed in language models — via distillation and reinforcement learning. But what about the non-reasoning models already trained and deployed across the internet? Should we simply abandon them, or is there hope for a search mechanism that can elicit hidden knowledge and induce long reasoning traces — without any additional training or supervision? In this paper, we explore this possibility using a Monte Carlo Tree Search (MCTS)-inspired algorithm, which injects subquestion-subanswer pairs into the model’s output stream. We show that framing reasoning as a search process — where subquestions act as latent decisions within a broader inference trajectory — helps the model ‘connect the dots’ between fragmented knowledge and produce extended reasoning traces in non-reasoning models. We evaluate our method across three benchmarks and observe consistent improvements. Notably, our approach yields a 2% overall improvement on MMMU-PRO, including a significant 9% gain in Liberal Arts.

arxiv情報

著者 David Acuna,Ximing Lu,Jaehun Jung,Hyunwoo Kim,Amlan Kar,Sanja Fidler,Yejin Choi
発行日 2025-06-10 15:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions はコメントを受け付けていません

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

要約

マルチモーダルの大手言語モデル(MLLMS)が進むにつれて、MLLMベースの仮想エージェントは顕著なパフォーマンスを実証しています。
ただし、既存のベンチマークは、制御できないタスクの複雑さ、限られたシナリオを備えた広範な手動注釈、多次元評価の欠如など、大きな制限に直面しています。
これらの課題に応えて、サブタスク構成を通じて制御可能な複雑さのタスクを合成するための自動パイプラインを備えた自己生成のクロスプラットフォームのグラフベースのベンチマークであるオムニベンチを導入します。
グラフ上の仮想エージェントの多様な機能を評価するために、さらに、10の機能にわたるサブタスクレベルの評価、グラフベースのメトリック、包括的なテストを含む多次元評価フレームワークであるOmnievalをさらに紹介します。
合成されたデータセットには、20のシナリオにわたって36Kグラフ構造のタスクが含まれており、91 \%の人間の受け入れ率が達成されています。
グラフ構造化データのトレーニングは、手動で注釈されたデータと比較して、エージェントをより効率的にガイドできることを示しています。
さまざまなオープンソースおよびクローズドソースモデルに対して多次元評価を実施し、さまざまな機能にわたるパフォーマンスを明らかにし、将来の進歩への道を開きます。
当社のプロジェクトは、https://omni-bench.github.io/で入手できます。

要約(オリジナル)

As multimodal large language models (MLLMs) advance, MLLM-based virtual agents have demonstrated remarkable performance. However, existing benchmarks face significant limitations, including uncontrollable task complexity, extensive manual annotation with limited scenarios, and a lack of multidimensional evaluation. In response to these challenges, we introduce OmniBench, a self-generating, cross-platform, graph-based benchmark with an automated pipeline for synthesizing tasks of controllable complexity through subtask composition. To evaluate the diverse capabilities of virtual agents on the graph, we further present OmniEval, a multidimensional evaluation framework that includes subtask-level evaluation, graph-based metrics, and comprehensive tests across 10 capabilities. Our synthesized dataset contains 36k graph-structured tasks across 20 scenarios, achieving a 91\% human acceptance rate. Training on our graph-structured data shows that it can more efficiently guide agents compared to manually annotated data. We conduct multidimensional evaluations for various open-source and closed-source models, revealing their performance across various capabilities and paving the way for future advancements. Our project is available at https://omni-bench.github.io/.

arxiv情報

著者 Wendong Bu,Yang Wu,Qifan Yu,Minghe Gao,Bingchen Miao,Zhenkui Zhang,Kaihang Pan,Yunfei Li,Mengze Li,Wei Ji,Juncheng Li,Siliang Tang,Yueting Zhuang
発行日 2025-06-10 15:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities はコメントを受け付けていません

SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation

要約

情報爆発の時代において、高品質のピクセルレベルの注釈への依存を最小限に抑えながら、大規模な非標識データを効率的に活用して、医療イメージングの分野における重要な課題のままです。
半教師の学習(SSL)は、知識移転を促進し、完全に監視されたモデルのパフォーマンスを大幅に改善し、医療画像分析における非常に有望な研究方向として出現することにより、非標識データの利用を強化します。
Vision Foundationモデル(SAM-2など)が豊富な事前知識を提供する能力に触発され、SSS(Semi-Supervised SAM-2)を提案します。SSSは、SAM-2の堅牢な特徴抽出機能を活用して、無効な医療画像の潜在的な知識を明らかにし、完全に監督された医療画像セグメンテーションの特徴サポートを効果的に強化します。
具体的には、シングルストリームの「弱い」一貫性の正規化フレームワークに基づいて、このペーパーでは、複数のビューでさまざまなデータ増強戦略によって導入された特徴の不一致をさらに調査するために、識別機能強化(DFE)メカニズムを紹介します。
マルチスケールの増強技術全体で機能を活用することにより、この方法は機能を再構築およびモデル化し、それにより顕著な領域を効果的に最適化します。
さらに、物理的な制約をスライドウィンドウ(PCSW)メカニズムと統合して、非標識データの入力プロンプトを生成し、追加のプロンプトのSAM-2の要件を満たすプロンプトジェネレーターが開発されました。
広範な実験は、2つのマルチラベルデータセット、すなわちACDCとBHSDでの半監視された医療画像セグメンテーションに対する提案された方法の優位性を示しています。
特に、SSSはBHSDで53.15の平​​均サイコロスコアを達成し、以前の最先端の方法を+3.65のサイコロで上回ります。
コードはhttps://github.com/aigeeksgroup/sssで入手できます。

要約(オリジナル)

In the era of information explosion, efficiently leveraging large-scale unlabeled data while minimizing the reliance on high-quality pixel-level annotations remains a critical challenge in the field of medical imaging. Semi-supervised learning (SSL) enhances the utilization of unlabeled data by facilitating knowledge transfer, significantly improving the performance of fully supervised models and emerging as a highly promising research direction in medical image analysis. Inspired by the ability of Vision Foundation Models (e.g., SAM-2) to provide rich prior knowledge, we propose SSS (Semi-Supervised SAM-2), a novel approach that leverages SAM-2’s robust feature extraction capabilities to uncover latent knowledge in unlabeled medical images, thus effectively enhancing feature support for fully supervised medical image segmentation. Specifically, building upon the single-stream ‘weak-to-strong’ consistency regularization framework, this paper introduces a Discriminative Feature Enhancement (DFE) mechanism to further explore the feature discrepancies introduced by various data augmentation strategies across multiple views. By leveraging feature similarity and dissimilarity across multi-scale augmentation techniques, the method reconstructs and models the features, thereby effectively optimizing the salient regions. Furthermore, a prompt generator is developed that integrates Physical Constraints with a Sliding Window (PCSW) mechanism to generate input prompts for unlabeled data, fulfilling SAM-2’s requirement for additional prompts. Extensive experiments demonstrate the superiority of the proposed method for semi-supervised medical image segmentation on two multi-label datasets, i.e., ACDC and BHSD. Notably, SSS achieves an average Dice score of 53.15 on BHSD, surpassing the previous state-of-the-art method by +3.65 Dice. Code will be available at https://github.com/AIGeeksGroup/SSS.

arxiv情報

著者 Hongjie Zhu,Xiwei Liu,Rundong Xue,Zeyu Zhang,Yong Xu,Daji Ergu,Ying Cai,Yang Zhao
発行日 2025-06-10 16:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation はコメントを受け付けていません

Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF

要約

Vision Transformers(VITS)は、顔や身体認識など、幅広い生体認証タスクで印象的なパフォーマンスを実証しています。
この作業では、可視(vis)画像で前処理されたVITモデルを、目に見えるおよび赤外線(IR)ドメインでキャプチャされた画像を一致させることを含む、クロススペクトルの身体認識の挑戦的な問題に適応します。
最近のVITアーキテクチャは、従来の位置埋め込みを超えて追加の埋め込みを組み込むことを調査しました。
このアイデアに基づいて、サイド情報埋め込み(SIE)を統合し、ドメインとカメラ情報のエンコードの影響を調べて、クロススペクトルマッチングを強化します。
驚くべきことに、我々の結果は、カメラ情報のみをエンコードすることは、ドメイン情報を明示的に組み込むことなく、LLCMデータセットで最先端のパフォーマンスを達成することを示しています。
目に見えるスペクトルの人の再識別(Reid)で閉塞処理が広く研究されていますが、目に見える混乱(vi)のオクルージョンは、主にLLCM、sysu-MM01、およびregdb、主にフルボディ、閉じ込めのイメージなどの既存のVI-REIDデータセットを大部分が露出していないままです。
このギャップに対処するために、IARPA Janus Benchmark Multi-Domain Face(IJB-MDF)データセットを使用して、さまざまな距離でキャプチャされた可視および赤外線画像の多様なセットを提供し、横断的な横断的評価を可能にする多様な目に見える画像のセットを提供する範囲誘導閉塞の影響を分析します。

要約(オリジナル)

Vision Transformers (ViTs) have demonstrated impressive performance across a wide range of biometric tasks, including face and body recognition. In this work, we adapt a ViT model pretrained on visible (VIS) imagery to the challenging problem of cross-spectral body recognition, which involves matching images captured in the visible and infrared (IR) domains. Recent ViT architectures have explored incorporating additional embeddings beyond traditional positional embeddings. Building on this idea, we integrate Side Information Embedding (SIE) and examine the impact of encoding domain and camera information to enhance cross-spectral matching. Surprisingly, our results show that encoding only camera information – without explicitly incorporating domain information – achieves state-of-the-art performance on the LLCM dataset. While occlusion handling has been extensively studied in visible-spectrum person re-identification (Re-ID), occlusions in visible-infrared (VI) Re-ID remain largely underexplored – primarily because existing VI-ReID datasets, such as LLCM, SYSU-MM01, and RegDB, predominantly feature full-body, unoccluded images. To address this gap, we analyze the impact of range-induced occlusions using the IARPA Janus Benchmark Multi-Domain Face (IJB-MDF) dataset, which provides a diverse set of visible and infrared images captured at various distances, enabling cross-range, cross-spectral evaluations.

arxiv情報

著者 Anirudh Nanduri,Siyuan Huang,Rama Chellappa
発行日 2025-06-10 16:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF はコメントを受け付けていません

Segment Concealed Objects with Incomplete Supervision

要約

不完全に監視されている隠されたオブジェクトセグメンテーション(ISCOS)には、モデルトレーニングのために、弱い環境や半注釈などの不完全な注釈付きデータを使用して、周囲の環境にシームレスに融合するオブジェクトのセグメント化が含まれます。
このタスクは、(1)不完全に注釈されたトレーニングデータによって提供される限られた監督、および(2)隠されたシナリオの本質的な類似性から生じる背景から隠されたオブジェクトを区別することの難しさにより、非常に困難なままです。
この論文では、これらの課題に対処するためのISCOSの最初の統一方法を紹介します。
不完全な監督の問題に取り組むために、統一された意味の融資型フレームワークを提案します。ビジョンファンデーションモデルをレバレッジしている「\ empond(SAM)}」をレバレッジして、教師モデルによってプロンプトとして生成された粗いマスクを使用して擬似ラベルを生成します。
低品質のセグメンテーションマスクの効果を緩和するために、擬似ラベルの生成、貯蔵、監督のための一連の戦略を紹介します。
これらの戦略は、有益な疑似ラベルを生産し、生成された最高の擬似ラベルを保存し、学生モデルを導くための最も信頼できるコンポーネントを選択して、堅牢なネットワークトレーニングを確保することを目的としています。
さらに、本質的な類似性の問題に取り組むために、さまざまな粒度でグループを特徴とし、これらの結果を集計するハイブリッド粒度機能グループモジュールを設計します。
同様の機能をクラスタリングすることにより、このモジュールはセグメンテーションコヒーレンスを促進し、単一オブジェクトと複数のオブジェクト画像の両方のより完全なセグメンテーションを促進します。
複数のISCOSタスクにわたるアプローチの有効性を検証し、実験結果は、この方法が最新のパフォーマンスを達成することを示しています。
さらに、SEEはプラグアンドプレイソリューションとして機能し、既存のモデルのパフォーマンスを向上させます。

要約(オリジナル)

Incompletely-Supervised Concealed Object Segmentation (ISCOS) involves segmenting objects that seamlessly blend into their surrounding environments, utilizing incompletely annotated data, such as weak and semi-annotations, for model training. This task remains highly challenging due to (1) the limited supervision provided by the incompletely annotated training data, and (2) the difficulty of distinguishing concealed objects from the background, which arises from the intrinsic similarities in concealed scenarios. In this paper, we introduce the first unified method for ISCOS to address these challenges. To tackle the issue of incomplete supervision, we propose a unified mean-teacher framework, SEE, that leverages the vision foundation model, “\emph{Segment Anything Model (SAM)}”, to generate pseudo-labels using coarse masks produced by the teacher model as prompts. To mitigate the effect of low-quality segmentation masks, we introduce a series of strategies for pseudo-label generation, storage, and supervision. These strategies aim to produce informative pseudo-labels, store the best pseudo-labels generated, and select the most reliable components to guide the student model, thereby ensuring robust network training. Additionally, to tackle the issue of intrinsic similarity, we design a hybrid-granularity feature grouping module that groups features at different granularities and aggregates these results. By clustering similar features, this module promotes segmentation coherence, facilitating more complete segmentation for both single-object and multiple-object images. We validate the effectiveness of our approach across multiple ISCOS tasks, and experimental results demonstrate that our method achieves state-of-the-art performance. Furthermore, SEE can serve as a plug-and-play solution, enhancing the performance of existing models.

arxiv情報

著者 Chunming He,Kai Li,Yachao Zhang,Ziyun Yang,Youwei Pang,Longxiang Tang,Chengyu Fang,Yulun Zhang,Linghe Kong,Xiu Li,Sina Farsiu
発行日 2025-06-10 16:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Segment Concealed Objects with Incomplete Supervision はコメントを受け付けていません

Data Augmentation For Small Object using Fast AutoAugment

要約

近年、オブジェクト検出パフォーマンスには大きな進歩があります。
ただし、これらの進歩にもかかわらず、小さなオブジェクトの検出性能は、大きなオブジェクトの検出性能よりも著しく劣っています。
小さなオブジェクトを検出することは、コンピュータービジョンで最も挑戦的で重要な問題の1つです。
小さなオブジェクトの検出パフォーマンスを改善するために、高速の自己開始を使用して最適なデータ増強方法を提案します。
提案された方法を通じて、小さなオブジェクトを検出するときに劣化を克服できる最適な増強ポリシーを迅速に見つけることができ、DOTAデータセットで20%のパフォーマンス改善を達成します。

要約(オリジナル)

In recent years, there has been tremendous progress in object detection performance. However, despite these advances, the detection performance for small objects is significantly inferior to that of large objects. Detecting small objects is one of the most challenging and important problems in computer vision. To improve the detection performance for small objects, we propose an optimal data augmentation method using Fast AutoAugment. Through our proposed method, we can quickly find optimal augmentation policies that can overcome degradation when detecting small objects, and we achieve a 20% performance improvement on the DOTA dataset.

arxiv情報

著者 DaeEun Yoon,Semin Kim,SangWook Yoo,Jongha Lee
発行日 2025-06-10 16:25:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Data Augmentation For Small Object using Fast AutoAugment はコメントを受け付けていません

SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion

要約

モーションスタイルの転送は、コンピュータービジョンの分野における重要な研究方向であり、仮想デジタル人間が同じ動きの異なるスタイルを迅速に切り替えることができるため、動きの豊かさとリアリズムを大幅に向上させることができます。
映画、ゲーム、メタバースなどのマルチメディアシナリオに広く適用されています。
ただし、ほとんどの既存の方法は2ストリーム構造を採用しています。これは、コンテンツとスタイルの動きの本質的な関係を見落とす傾向があり、情報の損失と不十分な調整につながります。
さらに、長距離モーションシーケンスを処理するとき、これらの方法は時間的依存性を効果的に学習することができず、最終的に不自然な生成された動きをもたらします。
これらの制限に対処するために、統一されたモーションスタイルの拡散(UMSD)フレームワークを提案します。これは、コンテンツとスタイルの両方のモーションから機能を同時に抽出し、十分な情報相互作用を促進します。
さらに、MAMBAの強力なシーケンスモデリング機能を活用するために、モーションスタイル転送の分野での最初のアプローチであるモーションスタイルMAMBA(MSM)Denoiserを紹介します。
一時的な関係をより適切にキャプチャすると、よりコヒーレントな様式化されたモーションシーケンスが生成されます。
第三に、拡散ベースのコンテンツの一貫性の損失とスタイルの一貫性の損失を設計してフレームワークを制約し、スタイルモーションの特性を効果的に学習しながらコンテンツの動きを継承します。
最後に、広範な実験は、私たちの方法が定性的および定量的に最先端の(SOTA)メソッドよりも優れており、より現実的で一貫したモーションスタイルの転送を達成することを示しています。

要約(オリジナル)

Motion style transfer is a significant research direction in the field of computer vision, enabling virtual digital humans to rapidly switch between different styles of the same motion, thereby significantly enhancing the richness and realism of movements. It has been widely applied in multimedia scenarios such as films, games, and the metaverse. However, most existing methods adopt a two-stream structure, which tends to overlook the intrinsic relationship between content and style motions, leading to information loss and poor alignment. Moreover, when handling long-range motion sequences, these methods fail to effectively learn temporal dependencies, ultimately resulting in unnatural generated motions. To address these limitations, we propose a Unified Motion Style Diffusion (UMSD) framework, which simultaneously extracts features from both content and style motions and facilitates sufficient information interaction. Additionally, we introduce the Motion Style Mamba (MSM) denoiser, the first approach in the field of motion style transfer to leverage Mamba’s powerful sequence modelling capability. Better capturing temporal relationships generates more coherent stylized motion sequences. Third, we design a diffusion-based content consistency loss and a style consistency loss to constrain the framework, ensuring that it inherits the content motion while effectively learning the characteristics of the style motion. Finally, extensive experiments demonstrate that our method outperforms state-of-the-art (SOTA) methods qualitatively and quantitatively, achieving more realistic and coherent motion style transfer.

arxiv情報

著者 Ziyun Qian,Zeyu Xiao,Xingliang Jin,Dingkang Yang,Mingcheng Li,Zhenyi Wu,Dongliang Kou,Peng Zhai,Lihua Zhang
発行日 2025-06-10 16:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion はコメントを受け付けていません

ORIDa: Object-centric Real-world Image Composition Dataset

要約

オブジェクトの合成、多様な視覚シーンの画像にオブジェクトを配置および調和させるタスクは、生成モデルの台頭により、コンピュータービジョンの重要なタスクとなっています。
ただし、既存のデータセットには、実際のシナリオを包括的に調査するために必要な多様性と規模がありません。
Orida(オブジェクト中心の現実世界画像構成データセット)を紹介します。これは、多様な位置とシーンで表示されている200個のユニークなオブジェクトを備えた30,000を超える画像を含む大規模でリアルキャプチャされたデータセットです。
Oridaには、2種類のデータがあります。事実上の市販の構造セットと事実のみのシーンです。
事実上のカウンターファクトルセットは、シーン内の異なる位置にあるオブジェクトを示す4つの事実画像と、オブジェクトのないシーンの1つの反事実(または背景)画像で構成され、シーンごとに5つの画像が生まれます。
事実のみのシーンには、特定のコンテキストにオブジェクトを含む単一の画像が含まれ、さまざまな環境を拡大します。
私たちの知る限り、Oridaは、実際の画像構成の規模と複雑さを備えた最初の公開データセットです。
広範な分析と実験は、オブジェクトの合成におけるさらなる研究を進めるためのリソースとしてのオリダの価値を強調しています。

要約(オリジナル)

Object compositing, the task of placing and harmonizing objects in images of diverse visual scenes, has become an important task in computer vision with the rise of generative models. However, existing datasets lack the diversity and scale required to comprehensively explore real-world scenarios. We introduce ORIDa (Object-centric Real-world Image Composition Dataset), a large-scale, real-captured dataset containing over 30,000 images featuring 200 unique objects, each of which is presented across varied positions and scenes. ORIDa has two types of data: factual-counterfactual sets and factual-only scenes. The factual-counterfactual sets consist of four factual images showing an object in different positions within a scene and a single counterfactual (or background) image of the scene without the object, resulting in five images per scene. The factual-only scenes include a single image containing an object in a specific context, expanding the variety of environments. To our knowledge, ORIDa is the first publicly available dataset with its scale and complexity for real-world image composition. Extensive analysis and experiments highlight the value of ORIDa as a resource for advancing further research in object compositing.

arxiv情報

著者 Jinwoo Kim,Sangmin Han,Jinho Jeong,Jiwoo Choi,Dongyoung Kim,Seon Joo Kim
発行日 2025-06-10 16:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ORIDa: Object-centric Real-world Image Composition Dataset はコメントを受け付けていません

ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations

要約

オブジェクト検出モデルは通常、事前定義されたカテゴリに依存しており、オープンワールドシナリオで新しいオブジェクトを識別する能力を制限します。
この制約を克服するために、Adam:Autonomous Discovery and Annotation Modelを紹介します。これは、オープンワールドオブジェクトラベル付けのためのトレーニングフリーの自己強化フレームワークです。
Adamは、大規模な言語モデル(LLM)を活用して、シーン内の既知のエンティティからのコンテキスト情報に基づいて、不明なオブジェクトの候補ラベルを生成します。
これらのラベルは、カテゴリの監督なしで推論を可能にする埋め込みラベルリポジトリ(ELR)を構築するために、クリップからの視覚的な埋め込みと組み合わされています。
新しく遭遇した不明なオブジェクトの場合、AdamはELRから視覚的に類似したインスタンスを取得し、頻度ベースの投票とクロスモーダルの再ランクを適用して、堅牢なラベルを割り当てます。
一貫性をさらに強化するために、視覚的な凝集分析とK-Nearest-Neighborベースの過半数の再標識を使用して、リポジトリラベルを再評価する自己修復ループを導入します。
COCOおよびPASCALデータセットの実験結果は、Adamが微調整や再訓練を必要とせずに、視覚的およびコンテキスト信号のみを使用して新しいカテゴリに効果的に注釈を付けることを示しています。

要約(オリジナル)

Object detection models typically rely on predefined categories, limiting their ability to identify novel objects in open-world scenarios. To overcome this constraint, we introduce ADAM: Autonomous Discovery and Annotation Model, a training-free, self-refining framework for open-world object labeling. ADAM leverages large language models (LLMs) to generate candidate labels for unknown objects based on contextual information from known entities within a scene. These labels are paired with visual embeddings from CLIP to construct an Embedding-Label Repository (ELR) that enables inference without category supervision. For a newly encountered unknown object, ADAM retrieves visually similar instances from the ELR and applies frequency-based voting and cross-modal re-ranking to assign a robust label. To further enhance consistency, we introduce a self-refinement loop that re-evaluates repository labels using visual cohesion analysis and k-nearest-neighbor-based majority re-labeling. Experimental results on the COCO and PASCAL datasets demonstrate that ADAM effectively annotates novel categories using only visual and contextual signals, without requiring any fine-tuning or retraining.

arxiv情報

著者 Amirreza Rouhi,Solmaz Arezoomandan,Knut Peterson,Joseph T. Woods,David K. Han
発行日 2025-06-10 16:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ADAM: Autonomous Discovery and Annotation Model using LLMs for Context-Aware Annotations はコメントを受け付けていません