Towards Better Understanding of Cybercrime: The Role of Fine-Tuned LLMs in Translation

要約

サイバー犯罪通信を理解することは、サイバーセキュリティ防御にとって最も重要です。
これには、多くの場合、処理、解釈、タイムリーな情報の生成のためにコミュニケーションを英語に翻訳することが含まれます。
問題は翻訳が難しいことです。
人間による翻訳は時間がかかり、高価で、希少です。
機械翻訳は不正確で偏っています。
私たちは、微調整された大規模言語モデル (LLM) を使用して、サイバー犯罪言語のニュアンスを正確に捉えることができる翻訳を生成することを提案します。
私たちは、NoName057(16) ロシア語を話すハクティビスト グループの公開チャットにこの技術を適用しています。
私たちの結果は、微調整された LLM モデルがより良く、より速く、より正確で、言語のニュアンスを捉えることができることを示しています。
私たちの方法は、人間の翻訳者と比較して、高忠実度の翻訳を実現し、コストを 430 ~ 23,000 分の 1 に大幅に削減できることを示しています。

要約(オリジナル)

Understanding cybercrime communications is paramount for cybersecurity defence. This often involves translating communications into English for processing, interpreting, and generating timely intelligence. The problem is that translation is hard. Human translation is slow, expensive, and scarce. Machine translation is inaccurate and biased. We propose using fine-tuned Large Language Models (LLM) to generate translations that can accurately capture the nuances of cybercrime language. We apply our technique to public chats from the NoName057(16) Russian-speaking hacktivist group. Our results show that our fine-tuned LLM model is better, faster, more accurate, and able to capture nuances of the language. Our method shows it is possible to achieve high-fidelity translations and significantly reduce costs by a factor ranging from 430 to 23,000 compared to a human translator.

arxiv情報

著者 Veronica Valeros,Anna Širokova,Carlos Catania,Sebastian Garcia
発行日 2024-04-02 13:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク