要約
オブジェクト検出モデルは通常、事前定義されたカテゴリに依存しており、オープンワールドシナリオで新しいオブジェクトを識別する能力を制限します。
この制約を克服するために、Adam:Autonomous Discovery and Annotation Modelを紹介します。これは、オープンワールドオブジェクトラベル付けのためのトレーニングフリーの自己強化フレームワークです。
Adamは、大規模な言語モデル(LLM)を活用して、シーン内の既知のエンティティからのコンテキスト情報に基づいて、不明なオブジェクトの候補ラベルを生成します。
これらのラベルは、カテゴリの監督なしで推論を可能にする埋め込みラベルリポジトリ(ELR)を構築するために、クリップからの視覚的な埋め込みと組み合わされています。
新しく遭遇した不明なオブジェクトの場合、AdamはELRから視覚的に類似したインスタンスを取得し、頻度ベースの投票とクロスモーダルの再ランクを適用して、堅牢なラベルを割り当てます。
一貫性をさらに強化するために、視覚的な凝集分析とK-Nearest-Neighborベースの過半数の再標識を使用して、リポジトリラベルを再評価する自己修復ループを導入します。
COCOおよびPASCALデータセットの実験結果は、Adamが微調整や再訓練を必要とせずに、視覚的およびコンテキスト信号のみを使用して新しいカテゴリに効果的に注釈を付けることを示しています。
要約(オリジナル)
Object detection models typically rely on predefined categories, limiting their ability to identify novel objects in open-world scenarios. To overcome this constraint, we introduce ADAM: Autonomous Discovery and Annotation Model, a training-free, self-refining framework for open-world object labeling. ADAM leverages large language models (LLMs) to generate candidate labels for unknown objects based on contextual information from known entities within a scene. These labels are paired with visual embeddings from CLIP to construct an Embedding-Label Repository (ELR) that enables inference without category supervision. For a newly encountered unknown object, ADAM retrieves visually similar instances from the ELR and applies frequency-based voting and cross-modal re-ranking to assign a robust label. To further enhance consistency, we introduce a self-refinement loop that re-evaluates repository labels using visual cohesion analysis and k-nearest-neighbor-based majority re-labeling. Experimental results on the COCO and PASCAL datasets demonstrate that ADAM effectively annotates novel categories using only visual and contextual signals, without requiring any fine-tuning or retraining.
arxiv情報
著者 | Amirreza Rouhi,Solmaz Arezoomandan,Knut Peterson,Joseph T. Woods,David K. Han |
発行日 | 2025-06-10 16:41:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google