A multimodal deep learning architecture for smoking detection with a small data approach

要約

はじめに: タバコの秘密広告は規制措置を提起することがよくあります。
この論文は、人工知能、特にディープラーニングが隠れた広告を検出する大きな可能性を秘めており、タバコ関連のメディアコンテンツを公平かつ再現可能かつ公正に定量化できることを示しています。
方法: 深層学習、生成手法、人間強化に基づいた統合テキストおよび画像処理モデルを提案します。これにより、利用可能なトレーニング データがほとんどなくても、テキスト形式と視覚形式の両方で喫煙ケースを検出できます。
結果: このモデルは、画像に対して 74\%、テキストに対して 98\% の精度を達成できます。
さらに、私たちのシステムには、人的補強の形で専門家の介入の可能性が組み込まれています。
結論: 深層学習を通じて利用可能な事前トレーニング済みのマルチモーダル、画像、およびテキスト処理モデルを使用すると、トレーニング データが少なくても、さまざまなメディアでの喫煙を検出することが可能になります。

要約(オリジナル)

Introduction: Covert tobacco advertisements often raise regulatory measures. This paper presents that artificial intelligence, particularly deep learning, has great potential for detecting hidden advertising and allows unbiased, reproducible, and fair quantification of tobacco-related media content. Methods: We propose an integrated text and image processing model based on deep learning, generative methods, and human reinforcement, which can detect smoking cases in both textual and visual formats, even with little available training data. Results: Our model can achieve 74\% accuracy for images and 98\% for text. Furthermore, our system integrates the possibility of expert intervention in the form of human reinforcement. Conclusions: Using the pre-trained multimodal, image, and text processing models available through deep learning makes it possible to detect smoking in different media even with few training data.

arxiv情報

著者 Robert Lakatos,Peter Pollner,Andras Hajdu,Tamas Joo
発行日 2023-09-19 12:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク