TopRoBERTa: Topology-Aware Authorship Attribution of Deepfake Texts


大規模言語モデル (LLM) の最近の進歩により、人間が書いたテキストと区別するのが容易ではない、オープンエンドの高品質テキストの生成が可能になりました。
このような LLM 生成テキストを \emph{ディープフェイク テキスト} と呼びます。
現在、huggingface モデル リポジトリには 11,000 を超えるテキスト生成モデルがあります。
そのため、悪意のあるユーザーは、これらのオープンソース LLM を簡単に使用して、有害なテキストや誤った情報を大規模に生成することができます。
この問題を軽減するには、特定のテキストがディープフェイク テキストであるかどうかを判断する計算手法、つまりチューリング テスト (TT) が必要です。
特に、この研究では、\emph{著者帰属 (AA)} として知られる問題のより一般的なバージョンをマルチクラス設定で調査します。つまり、特定のテキストがディープフェイク テキストであるかどうかを判断するだけではありません。
そうでないだけでなく、どの LLM が作成者であるかを正確に特定することもできます。
私たちは、RoBERTa モデルにトポロジカル データ分析 (TDA) 層を含めることにより、ディープフェイク テキストのより多くの言語パターンを捕捉することで、既存の AA ソリューションを改善する \textbf{TopRoBERTa} を提案します。
RoBERTa の再形成された $pooled\_output$ を入力として TDA 特徴を抽出することにより、ノイズが多く不均衡で異種のデータセットを扱う場合に TDA レイヤーを使用する利点を示します。
RoBERTa を使用して文脈表現 (つまり、意味論的および構文的な言語特徴) をキャプチャし、TDA を使用してデータの形状と構造 (つまり、言語構造) をキャプチャします。
最後に、\textbf{TopRoBERTa} は 2/3 データセットでバニラ RoBERTa を上回り、マクロ F1 スコアで最大 7\% の増加を達成しました。


Recent advances in Large Language Models (LLMs) have enabled the generation of open-ended high-quality texts, that are non-trivial to distinguish from human-written texts. We refer to such LLM-generated texts as \emph{deepfake texts}. There are currently over 11K text generation models in the huggingface model repo. As such, users with malicious intent can easily use these open-sourced LLMs to generate harmful texts and misinformation at scale. To mitigate this problem, a computational method to determine if a given text is a deepfake text or not is desired–i.e., Turing Test (TT). In particular, in this work, we investigate the more general version of the problem, known as \emph{Authorship Attribution (AA)}, in a multi-class setting–i.e., not only determining if a given text is a deepfake text or not but also being able to pinpoint which LLM is the author. We propose \textbf{TopRoBERTa} to improve existing AA solutions by capturing more linguistic patterns in deepfake texts by including a Topological Data Analysis (TDA) layer in the RoBERTa model. We show the benefits of having a TDA layer when dealing with noisy, imbalanced, and heterogeneous datasets, by extracting TDA features from the reshaped $pooled\_output$ of RoBERTa as input. We use RoBERTa to capture contextual representations (i.e., semantic and syntactic linguistic features), while using TDA to capture the shape and structure of data (i.e., linguistic structures). Finally, \textbf{TopRoBERTa}, outperforms the vanilla RoBERTa in 2/3 datasets, achieving up to 7\% increase in Macro F1 score.


著者 Adaku Uchendu,Thai Le,Dongwon Lee
発行日 2023-09-22 15:32:49+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CL パーマリンク