DarkBERT: A Language Model for the Dark Side of the Internet

要約

最近の研究では、ダーク Web で使用される言語と、Surface Web で使用される言語には明らかな違いがあることが示唆されています。
ダークウェブに関する研究では通常、ドメインのテキスト分析が必要となるため、ダークウェブに固有の言語モデルは研究者に貴重な洞察を提供する可能性があります。
この作業では、ダーク Web データで事前トレーニングされた言語モデルである DarkBERT を導入します。
ドメインの適切な表現の構築に悪影響を与える可能性があるダークウェブの極端な語彙的および構造的多様性に対処するために、DarkBERT をトレーニングするために使用されるテキスト データをフィルタリングしてコンパイルするために必要な手順について説明します。
私たちは DarkBERT とその標準版を他の広く使用されている言語モデルとともに評価し、ダーク Web ドメイン固有のモデルがさまざまなユースケースで提供する利点を検証します。
私たちの評価では、DarkBERT が現在の言語モデルよりも優れており、ダークウェブに関する将来の研究のための貴重なリソースとして役立つ可能性があることが示されています。

要約(オリジナル)

Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.

arxiv情報

著者 Youngjin Jin,Eugene Jang,Jian Cui,Jin-Woo Chung,Yongjae Lee,Seungwon Shin
発行日 2023-05-15 12:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク