要約
ソーシャルメディアプラットフォーム上でのタバコ関連コンテンツの急増は、公衆衛生の監視と介入に重大な課題をもたらしています。
この論文では、タバコ関連のビデオ コンテンツを包括的に分析するために設計された Flow-tention Adaptive Semantic Hierarchical Fusion (FLAASH) と呼ばれる新しいマルチモーダル深層学習フレームワークを紹介します。
FLAASH は、フロー ネットワーク理論にヒントを得た階層融合メカニズムを活用することで、短編ビデオに視覚情報とテキスト情報を統合する際の複雑さに対処します。
私たちのアプローチには、視覚的モダリティとテキストモダリティの間の微妙な相互作用を捉えるフローアテンションメカニズム、さまざまな階層レベルの寄与のバランスを取る適応重み付けスキーム、関連する機能を選択的に強調するゲートメカニズムなど、3 つの主要な革新が組み込まれています。
この多面的なアプローチにより、FLAASH は製品のショーケースから使用シナリオに至るまで、さまざまなタバコ関連コンテンツを効果的に処理および分析できるようになります。
私たちは、人気のソーシャル メディア プラットフォームからのタバコ関連ビデオの大規模なコレクションである Multimodal Tobacco Content Analysis Dataset (MTCAD) で FLAASH を評価します。
私たちの結果は、既存の手法に比べて大幅な改善が見られ、分類精度、F1 スコア、時間的一貫性において最先端のアプローチを上回っていることを示しています。
提案された方法は、標準的なビデオ質問応答データセットでテストした場合、現在のモデルを上回る強力な一般化機能も示しています。
この研究は公衆衛生と人工知能の融合に貢献し、デジタル メディアでのタバコの宣伝を分析するための効果的なツールを提供します。
要約(オリジナル)
The proliferation of tobacco-related content on social media platforms poses significant challenges for public health monitoring and intervention. This paper introduces a novel multi-modal deep learning framework named Flow-Attention Adaptive Semantic Hierarchical Fusion (FLAASH) designed to analyze tobacco-related video content comprehensively. FLAASH addresses the complexities of integrating visual and textual information in short-form videos by leveraging a hierarchical fusion mechanism inspired by flow network theory. Our approach incorporates three key innovations, including a flow-attention mechanism that captures nuanced interactions between visual and textual modalities, an adaptive weighting scheme that balances the contribution of different hierarchical levels, and a gating mechanism that selectively emphasizes relevant features. This multi-faceted approach enables FLAASH to effectively process and analyze diverse tobacco-related content, from product showcases to usage scenarios. We evaluate FLAASH on the Multimodal Tobacco Content Analysis Dataset (MTCAD), a large-scale collection of tobacco-related videos from popular social media platforms. Our results demonstrate significant improvements over existing methods, outperforming state-of-the-art approaches in classification accuracy, F1 score, and temporal consistency. The proposed method also shows strong generalization capabilities when tested on standard video question-answering datasets, surpassing current models. This work contributes to the intersection of public health and artificial intelligence, offering an effective tool for analyzing tobacco promotion in digital media.
arxiv情報
著者 | Naga VS Raviteja Chappa,Page Daniel Dobbs,Bhiksha Raj,Khoa Luu |
発行日 | 2024-12-09 17:12:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google