CAVE: Controllable Authorship Verification Explanations

要約

著者証明 (AV) (2 つの文書の著者が同じか?) は、多くの機密性の高い現実のアプリケーションにとって不可欠です。
AV はプライベートなオフライン モデルを必要とする独自ドメインで使用されることが多いため、ChatGPT のような SOTA オンライン モデルは望ましくありません。
他の SOTA システムでは、次のようなメソッドが使用されます。
Siamese ネットワークは解釈できないため、一か八かのアプリケーションでは信頼できません。
この作業では、モデル CAVE (制御可能な著者証明説明) を使用して上記の課題に対処するための最初のステップを踏みます。CAVE は、1) 構造化されるように制御されるフリーテキストの AV 説明を生成します (1) 構造化される (サブ説明に分解できる)
2) 説明とラベルの一貫性が簡単に検証されます (サブ説明の中間ラベルを介して)。
この作業では、Llama-3-8B を CAVE として訓練します。
AV の説明には人間が書いたコーパスがないため、GPT-4-TURBO からシルバースタンダードの説明をサンプリングし、それらを抽出して事前学習済みの Llama-3-8B にします。
3 つの困難な AV データセット IMdB2、Blog-Auth、および FanFiction の結果は、CAVE が高品質の説明 (自動および人間の評価によって測定) と競争力のあるタスク精度を生成することを示しています。

要約(オリジナル)

Authorship Verification (AV) (do two documents have the same author?) is essential for many sensitive real-life applications. AV is often used in proprietary domains that require a private, offline model, making SOTA online models like ChatGPT undesirable. Other SOTA systems use methods, e.g. Siamese Networks, that are uninterpretable, and hence cannot be trusted in high-stakes applications. In this work, we take the first step to address the above challenges with our model CAVE (Controllable Authorship Verification Explanations): CAVE generates free-text AV explanations that are controlled to be 1) structured (can be decomposed into sub-explanations with respect to relevant linguistic features), and 2) easily verified for explanation-label consistency (via intermediate labels in sub-explanations). In this work, we train a Llama-3-8B as CAVE; since there are no human-written corpora for AV explanations, we sample silver-standard explanations from GPT-4-TURBO and distill them into a pretrained Llama-3-8B. Results on three difficult AV datasets IMdB2, Blog-Auth, and FanFiction show that CAVE generates high quality explanations (as measured by automatic and human evaluation) as well as competitive task accuracies.

arxiv情報

著者 Sahana Ramnath,Kartik Pandey,Elizabeth Boschee,Xiang Ren
発行日 2024-06-24 14:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク