要約
Human-Object Interaction (HOI) 検出は、画像理解における基本的なタスクです。
深層学習ベースの HOI 手法は、平均平均精度 (mAP) の点で高いパフォーマンスを提供しますが、計算コストが高く、トレーニングと推論のプロセスが不透明です。
この研究では、検出パフォーマンス、推論の複雑さ、数学的透明性の間で適切なバランスを取るために、効率的な HOI (EHOI) 検出器が提案されています。
EHOI は 2 段階の方法です。
最初の段階では、凍結オブジェクト検出器を活用してオブジェクトの位置を特定し、さまざまな特徴を中間出力として抽出します。
第 2 段階では、第 1 段階の出力が XGBoost 分類器を使用してインタラクション タイプを予測します。
私たちの貢献には、稀な相互作用のケースをエンコードするための誤り訂正符号 (ECC) の適用が含まれます。これにより、第 2 段階の XGBoost 分類器のモデル サイズと複雑さが軽減されます。
さらに、ラベルの再設定と意思決定のプロセスを数学的に定式化します。
アーキテクチャとは別に、フィードフォワード モジュールの機能を説明する定性的な結果を示します。
実験結果は、ECC でコード化された相互作用ラベルの利点と、提案された EHOI 方法の検出パフォーマンスと複雑さの優れたバランスを示しています。
要約(オリジナル)
Human-Object Interaction (HOI) detection is a fundamental task in image understanding. While deep-learning-based HOI methods provide high performance in terms of mean Average Precision (mAP), they are computationally expensive and opaque in training and inference processes. An Efficient HOI (EHOI) detector is proposed in this work to strike a good balance between detection performance, inference complexity, and mathematical transparency. EHOI is a two-stage method. In the first stage, it leverages a frozen object detector to localize the objects and extract various features as intermediate outputs. In the second stage, the first-stage outputs predict the interaction type using the XGBoost classifier. Our contributions include the application of error correction codes (ECCs) to encode rare interaction cases, which reduces the model size and the complexity of the XGBoost classifier in the second stage. Additionally, we provide a mathematical formulation of the relabeling and decision-making process. Apart from the architecture, we present qualitative results to explain the functionalities of the feedforward modules. Experimental results demonstrate the advantages of ECC-coded interaction labels and the excellent balance of detection performance and complexity of the proposed EHOI method.
arxiv情報
著者 | Tsung-Shan Yang,Yun-Cheng Wang,Chengwei Wei,Suya You,C. -C. Jay Kuo |
発行日 | 2024-08-13 16:34:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google