要約
現代では、人々は直接的または間接的に情報を入手するためにインターネットと検索エンジンに大きく依存しています。
しかし、ユーザーがアクセスできる情報は、一般にサーフェス Web として知られるインターネット上に存在する情報全体のわずか 4% にすぎません。
検索エンジンをすり抜けた残りの情報はディープウェブと呼ばれます。
ディープ Web には、個人の電子メール アカウント、ソーシャル メディア アカウント、オンライン バンキング アカウント、その他の機密データなど、意図的に隠された情報が含まれます。
深層ウェブには、大学、銀行、民事記録のデータベースなど、アクセスが禁止され違法ないくつかの重要なアプリケーションが含まれています。
ダークウェブはディープウェブのサブセットであり、犯罪者や密輸業者が麻薬密売、武器の密輸、盗まれた銀行カードの販売、マネーロンダリングなどの違法行為を行うための理想的なプラットフォームを提供します。
この記事では、ダークウェブ上のアクティビティのタイトルを検出するために深層学習を採用した検索エンジンを提案します。
私たちは、麻薬取引、武器取引、盗まれた銀行カードの販売、偽の身分証明書の販売、違法通貨の販売を含む 5 つのカテゴリーの活動に焦点を当てています。
私たちの目的は、拡張子「.onion」を持つ Web サイトから関連画像を抽出し、ページのテキストからキーワードを抽出することで画像のない Web サイトのタイトルを識別することです。
さらに、私たちが収集し、提案した方法を評価するために使用した Darkoob と呼ばれる画像のデータセットを紹介します。
実験結果は、提案された方法がテスト データセットで 94% の精度を達成することを示しています。
要約(オリジナル)
In contemporary times, people rely heavily on the internet and search engines to obtain information, either directly or indirectly. However, the information accessible to users constitutes merely 4% of the overall information present on the internet, which is commonly known as the surface web. The remaining information that eludes search engines is called the deep web. The deep web encompasses deliberately hidden information, such as personal email accounts, social media accounts, online banking accounts, and other confidential data. The deep web contains several critical applications, including databases of universities, banks, and civil records, which are off-limits and illegal to access. The dark web is a subset of the deep web that provides an ideal platform for criminals and smugglers to engage in illicit activities, such as drug trafficking, weapon smuggling, selling stolen bank cards, and money laundering. In this article, we propose a search engine that employs deep learning to detect the titles of activities on the dark web. We focus on five categories of activities, including drug trading, weapon trading, selling stolen bank cards, selling fake IDs, and selling illegal currencies. Our aim is to extract relevant images from websites with a ‘.onion’ extension and identify the titles of websites without images by extracting keywords from the text of the pages. Furthermore, we introduce a dataset of images called Darkoob, which we have gathered and used to evaluate our proposed method. Our experimental results demonstrate that the proposed method achieves an accuracy rate of 94% on the test dataset.
arxiv情報
著者 | Ali Fayzi,Mohammad Fayzi,Kourosh Ahmadi |
発行日 | 2023-06-27 13:33:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google