Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food Detection


フード コンピューティングは、栄養と健康のためのビジョンベースの食品分析など、コンピューター ビジョンにさまざまな視点をもたらします。
食品コンピューティングの基本的なタスクとして、食品検出には、インテリジェント キッチンやスマート レストランなどの現実世界のシナリオをサポートするために、新しい目に見えない食品オブジェクトに対するゼロショット検出 (ZSD) が必要です。
したがって、最初に、豊富な属性アノテーションを備えた FOWA データセットを導入して、ゼロショット食品検出 (ZSFD) のタスクのベンチマークを行います。
ZSD とは異なり、ZSFD ではクラス間の類似性などのきめ細かい問題により、合成された機能が分離できなくなります。
食品の意味属​​性が複雑なため、現在の ZSD 手法ではさまざまな食品カテゴリを区別することがさらに困難になります。
これらの問題に対処するために、複雑な属性間の相互作用を利用して詳細な問題に取り組む新しいフレームワーク ZSFDet を提案します。
具体的には、ZSFDet の食品カテゴリと属性間の相関関係をマルチソース グラフによってモデル化し、きめの細かい特徴を区別するための事前知識を提供します。
ZSFDet 内では、知識拡張機能シンセサイザー (KEFS) が、マルチソース グラフ融合を介して複数のソースから知識表現 (知識グラフからの成分相関など) を学習します。
意味論的な知識表現の融合を条件として、KEFS の領域特徴拡散モデルは、効果的なゼロショット検出器をトレーニングするためのきめの細かい特徴を生成できます。
広範な評価により、FOWA および広く使用されている食品データセット UECFOOD-256 における当社のメソッド ZSFDet の優れたパフォーマンスが実証され、強力なベースライン RRFS と比較して ZSD mAP が 1.8% および 3.7% 大幅に向上しました。
PASCAL VOC と MS COCO に関するさらなる実験により、セマンティック知識の強化により、一般的な ZSD のパフォーマンスも向上できることが証明されました。
コードとデータセットは で入手できます。


Food computing brings various perspectives to computer vision like vision-based food analysis for nutrition and health. As a fundamental task in food computing, food detection needs Zero-Shot Detection (ZSD) on novel unseen food objects to support real-world scenarios, such as intelligent kitchens and smart restaurants. Therefore, we first benchmark the task of Zero-Shot Food Detection (ZSFD) by introducing FOWA dataset with rich attribute annotations. Unlike ZSD, fine-grained problems in ZSFD like inter-class similarity make synthesized features inseparable. The complexity of food semantic attributes further makes it more difficult for current ZSD methods to distinguish various food categories. To address these problems, we propose a novel framework ZSFDet to tackle fine-grained problems by exploiting the interaction between complex attributes. Specifically, we model the correlation between food categories and attributes in ZSFDet by multi-source graphs to provide prior knowledge for distinguishing fine-grained features. Within ZSFDet, Knowledge-Enhanced Feature Synthesizer (KEFS) learns knowledge representation from multiple sources (e.g., ingredients correlation from knowledge graph) via the multi-source graph fusion. Conditioned on the fusion of semantic knowledge representation, the region feature diffusion model in KEFS can generate fine-grained features for training the effective zero-shot detector. Extensive evaluations demonstrate the superior performance of our method ZSFDet on FOWA and the widely-used food dataset UECFOOD-256, with significant improvements by 1.8% and 3.7% ZSD mAP compared with the strong baseline RRFS. Further experiments on PASCAL VOC and MS COCO prove that enhancement of the semantic knowledge can also improve the performance on general ZSD. Code and dataset are available at


著者 Pengfei Zhou,Weiqing Min,Jiajun Song,Yang Zhang,Shuqiang Jiang
発行日 2024-02-14 15:32:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク