要約
効果的なセキュリティ対策のニーズの高まりと商用製品へのカメラの統合により、今日では膨大な量の視覚データが作成されています。
法執行機関 (LEA) は、過激化、テロ組織のプロパガンダ、ダークネット市場の違法商品を見つけるために画像やビデオを検査しています。
これには時間がかかります。LEA は、方向性のない検索の代わりに、新たな犯罪や脅威に適応し、特定の場所、人物、または物体からのデータのみに焦点を当てたいと考えています。これには、画像コンテンツの柔軟な解釈が必要です。
ディープ畳み込みニューラル ネットワーク (CNN) を使用した視覚的コンセプトの検出は、画像の内容を理解するための重要なコンポーネントです。
この論文には 5 件の寄稿があります。
最初の貢献により、画像ベースの地理的位置推定により画像の原点を推定できるようになります。
CNN とジオタグ付き画像は、ピクセル値によって画像の位置を決定するモデルを作成するために使用されます。
2 番目の貢献により、一般的な概念内のサブカテゴリを区別するための詳細な概念の分析が可能になります。
提案された方法には、データの取得とクリーニング、および概念階層が含まれます。
3 番目の貢献は、人物の属性 (眼鏡や口ひげなど) を認識して、人物のテキスト記述によるクエリを可能にすることです。
人物属性の問題は、概念分類の特定のサブタスクとして扱われます。
4 番目の貢献は、アクティブ ラーニングに基づいた直感的な画像アノテーション ツールです。
アクティブ ラーニングにより、ユーザーは新しい概念を柔軟に定義し、最小限のアノテーション作業で CNN をトレーニングできるようになります。
5 番目の貢献は、クエリ拡張を使用することにより、クエリ定義における LEA の柔軟性を高めます。クエリ拡張は、ユーザー クエリを既知の検出可能な概念にマップします。
したがって、ユーザーは検出可能な概念についての事前知識を必要としません。
このメソッドは、さまざまな場所 (人気のある場所と非観光地)、さまざまな人物属性 (CelebA データセット)、およびさまざまな数の注釈を含むデータで検証されます。
要約(オリジナル)
Due to the increasing need for effective security measures and the integration of cameras in commercial products, a hugeamount of visual data is created today. Law enforcement agencies (LEAs) are inspecting images and videos to findradicalization, propaganda for terrorist organizations and illegal products on darknet markets. This is time consuming.Instead of an undirected search, LEAs would like to adapt to new crimes and threats, and focus only on data from specificlocations, persons or objects, which requires flexible interpretation of image content. Visual concept detection with deepconvolutional neural networks (CNNs) is a crucial component to understand the image content. This paper has fivecontributions. The first contribution allows image-based geo-localization to estimate the origin of an image. CNNs andgeotagged images are used to create a model that determines the location of an image by its pixel values. The secondcontribution enables analysis of fine-grained concepts to distinguish sub-categories in a generic concept. The proposedmethod encompasses data acquisition and cleaning and concept hierarchies. The third contribution is the recognition ofperson attributes (e.g., glasses or moustache) to enable query by textual description for a person. The person-attributeproblem is treated as a specific sub-task of concept classification. The fourth contribution is an intuitive image annotationtool based on active learning. Active learning allows users to define novel concepts flexibly and train CNNs with minimalannotation effort. The fifth contribution increases the flexibility for LEAs in the query definition by using query expansion.Query expansion maps user queries to known and detectable concepts. Therefore, no prior knowledge of the detectableconcepts is required for the users. The methods are validated on data with varying locations (popular and non-touristiclocations), varying person attributes (CelebA dataset), and varying number of annotations.
arxiv情報
著者 | Henri Bouma,Bart Joosten,Maarten C Kruithof,Maaike H T de Boer,Alexandru Ginsca,Benjamin Labbe,Quoc T Vuong |
発行日 | 2024-05-15 09:02:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google