Web Content Filtering through knowledge distillation of Large Language Models

要約

タイトル:大規模言語モデルの知識蒸留によるWebコンテンツフィルタリング

要約:
– 大規模言語モデル(LLM)の能力を活用して、Webコンテンツフィルタリングの主な目的である組織を法的・倫理的リスクから守り、ハイリスクや疑わしいウェブサイトへのアクセスを制限し、安全で専門的な作業環境を促進するための、最新技術を導入したアプローチを提供する。
– LLMを利用して正確な分類を生成し、確立された知識蒸留技術を使用して、Webコンテンツフィルタリングに適したより小さく、より特化した学生モデルを作成する。
– 蒸留結果、175倍少ないパラメータ数でLLMと同等の性能を発揮する学生モデルが得られ、蒸留前の9%の精度向上を達成した。
– また、現在最新のアプローチに比べて、3桁の経験的訓練データ量が必要であり、大量のURLをインラインスキャニングするためにモデルを使用できるようになった。
– アプローチの出力は、よりリソースを必要とするWeb画像やHTMLといった操作の前フィルタとして使用することもできる。

要約(オリジナル)

We introduce a state-of-the-art approach for URL categorization that leverages the power of Large Language Models (LLMs) to address the primary objectives of web content filtering: safeguarding organizations from legal and ethical risks, limiting access to high-risk or suspicious websites, and fostering a secure and professional work environment. Our method utilizes LLMs to generate accurate classifications and then employs established knowledge distillation techniques to create smaller, more specialized student models tailored for web content filtering. Distillation results in a student model with a 9\% accuracy rate improvement in classifying websites, sourced from customer telemetry data collected by a large security vendor, into 30 distinct content categories based on their URLs, surpassing the current state-of-the-art approach. Our student model matches the performance of the teacher LLM with 175 times less parameters, allowing the model to be used for in-line scanning of large volumes of URLs, and requires 3 orders of magnitude less manually labeled training data than the current state-of-the-art approach. Depending on the specific use case, the output generated by our approach can either be directly returned or employed as a pre-filter for more resource-intensive operations involving website images or HTML.

arxiv情報

著者 Tamás Vörös,Sean Paul Bergeron,Konstantin Berlin
発行日 2023-05-08 20:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク