Conformal Predictions for Human Action Recognition with Vision-Language Models

要約

Human-in-the-Loop(HITL)フレームワークは、多くの現実世界のコンピュータービジョンシステムに不可欠であり、人間のオペレーターがAI支援で情報に基づいた意思決定を行うことができます。
グラウンドトゥルースインクルージョンの確率に関する厳格な保証をラベルセットに提供するコンフォーマル予測(CP)は、最近、HITL設定の貴重なツールとして牽引力を獲得しました。
重要なアプリケーション領域の1つは、人間の行動認識(HAR)と密接に関連するビデオ監視です。
この研究では、先立って訓練された視覚言語モデル(VLM)を利用する最先端のHARメソッドの上にCPの適用を調査します。
私たちの調査結果は、CPが基礎となるVLMを変更せずに候補クラスの平均数を大幅に削減できることを明らかにしています。
ただし、これらの削減は、しばしば長い尾を持つ分布をもたらします。
これに対処するために、追加のキャリブレーションデータを必要とせずにこれらのテールを最小限に抑えるために、VLMSの温度パラメーターを調整することに基づいてメソッドを紹介します。
私たちのコードは、アドレスhttps://github.com/tbary/cp4vlmのGithubで利用可能になります。

要約(オリジナル)

Human-In-The-Loop (HITL) frameworks are integral to many real-world computer vision systems, enabling human operators to make informed decisions with AI assistance. Conformal Predictions (CP), which provide label sets with rigorous guarantees on ground truth inclusion probabilities, have recently gained traction as a valuable tool in HITL settings. One key application area is video surveillance, closely associated with Human Action Recognition (HAR). This study explores the application of CP on top of state-of-the-art HAR methods that utilize extensively pre-trained Vision-Language Models (VLMs). Our findings reveal that CP can significantly reduce the average number of candidate classes without modifying the underlying VLM. However, these reductions often result in distributions with long tails. To address this, we introduce a method based on tuning the temperature parameter of the VLMs to minimize these tails without requiring additional calibration data. Our code is made available on GitHub at the address https://github.com/tbary/CP4VLM.

arxiv情報

著者 Bary Tim,Fuchs Clément,Macq Benoît
発行日 2025-02-10 16:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク