Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity

要約

従来のコンピューター ビジョン モデルでは、特に微妙な動作のニュアンスやイベントを検出する場合、データの取得、注釈、検証に多大な手作業が必要となることがよくあります。
現実世界のアプリケーションでは、日常的な買い物と万引きの可能性を区別するなど、日常的な行動と潜在的なリスクを区別することが困難であるため、プロセスはさらに複雑になります。
さらに、これらのモデルは、トレーニング データの条件と大きく異なる現実世界のシナリオにさらされると、高い誤検知率と不正確なイベント検出を示す可能性があります。
これらのハードルを克服するために、私たちは新しいゼロショット コンピューター ビジョン システムである Ethosight を紹介します。
Ethosight は、ユーザーの要件と関心のある意味論的な知識に基づいて白紙の状態から開始します。
Ethosight は、局所的なラベル アフィニティ計算と推論に基づく反復学習ループを使用して、シーンの詳細を推論し、ラベル セットを反復的に調整します。
推論メカニズムは、GPT4 などの大規模言語モデル、OpenNARS\cite{wang2013}\cite{wang2006} などの記号推論、またはハイブリッド システムから派生できます。
私たちの評価では、健康、安全、セキュリティなどの領域にわたる 40 の複雑なユースケースにわたる Ethosight の有効性が実証されています。
この論文の本文と付録に含まれる詳細な結果とケーススタディは、微妙で微妙な動作の検出と抽出におけるコンピュータ ビジョン モデルの適応性と回復力の強化に向けた有望な軌道を強調しています。

要約(オリジナル)

Traditional computer vision models often require extensive manual effort for data acquisition, annotation and validation, particularly when detecting subtle behavioral nuances or events. The difficulty in distinguishing routine behaviors from potential risks in real-world applications, such as differentiating routine shopping from potential shoplifting, further complicates the process. Moreover, these models may demonstrate high false positive rates and imprecise event detection when exposed to real-world scenarios that differ significantly from the conditions of the training data. To overcome these hurdles, we present Ethosight, a novel zero-shot computer vision system. Ethosight initiates with a clean slate based on user requirements and semantic knowledge of interest. Using localized label affinity calculations and a reasoning-guided iterative learning loop, Ethosight infers scene details and iteratively refines the label set. Reasoning mechanisms can be derived from large language models like GPT4, symbolic reasoners like OpenNARS\cite{wang2013}\cite{wang2006}, or hybrid systems. Our evaluations demonstrate Ethosight’s efficacy across 40 complex use cases, spanning domains such as health, safety, and security. Detailed results and case studies within the main body of this paper and an appendix underscore a promising trajectory towards enhancing the adaptability and resilience of computer vision models in detecting and extracting subtle and nuanced behaviors.

arxiv情報

著者 Hugo Latapie,Kristinn R. Thorisson,Shan Yu,Vahagn Petrosyan,Patrick Hammer,Pei Wang,Brandon Kynoch,Hanning Chen,Tangrui Li
発行日 2023-07-21 06:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク