An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection

要約

オープンボキャブラリーオブジェクト検出モデルの最近の進歩により、自動ターゲット認識システムは、さまざまなアプリケーションまたはミッションのために非技術的エンドユーザーによって持続可能で再利用されます。
新しい、潜在的に微妙なクラスは、モデルを再訓練する必要なく、ランタイムの直前に、フィールド内の自然言語のテキストの説明で定義できます。
テキストの埋め込み上の分析手法の組み合わせを使用して、対照的な例のための埋め込みの適切な組み合わせを使用して、目的の目的のターゲットの非技術的なユーザーの自然言語テキストの説明を改善するためのアプローチを提示します。
フィードバックメカニズムが提供する改善を定量化します。

要約(オリジナル)

Recent advances in open-vocabulary object detection models will enable Automatic Target Recognition systems to be sustainable and repurposed by non-technical end-users for a variety of applications or missions. New, and potentially nuanced, classes can be defined with natural language text descriptions in the field, immediately before runtime, without needing to retrain the model. We present an approach for improving non-technical users’ natural language text descriptions of their desired targets of interest, using a combination of analysis techniques on the text embeddings, and proper combinations of embeddings for contrastive examples. We quantify the improvement that our feedback mechanism provides by demonstrating performance with multiple publicly-available open-vocabulary object detection models.

arxiv情報

著者 Louis Y. Kim,Michelle Karker,Victoria Valledor,Seiyoung C. Lee,Karl F. Brzoska,Margaret Duff,Anthony Palladino
発行日 2025-03-21 16:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク