Simpler becomes Harder: Do LLMs Exhibit a Coherent Behavior on Simplified Corpora?

要約

テキストの簡略化は、元の内容と意味を保持しながら読みやすさを向上させることを目的としています。
私たちの研究では、元の入力と単純化された入力の両方に対する予測を比較することで、事前トレーニングされた分類器もそのような一貫性を維持しているかどうかを調査しています。
私たちは、3 つの言語にわたる 6 つのデータセットにわたって、BERT や OpenAI の GPT 3.5 を含む 11 の事前トレーニング済みモデルを使用して実験を実施します。
さらに、予測変化率と簡略化の種類/強度との相関関係を詳細に分析します。
私たちの調査結果では、すべての言語とモデルにわたる驚くべき矛盾が明らかになりました。
迅速に対処しないと、単純化された入力を簡単に悪用して、最大 50% の成功率でゼロ反復モデルに依存しない敵対的攻撃が作成される可能性があります。

要約(オリジナル)

Text simplification seeks to improve readability while retaining the original content and meaning. Our study investigates whether pre-trained classifiers also maintain such coherence by comparing their predictions on both original and simplified inputs. We conduct experiments using 11 pre-trained models, including BERT and OpenAI’s GPT 3.5, across six datasets spanning three languages. Additionally, we conduct a detailed analysis of the correlation between prediction change rates and simplification types/strengths. Our findings reveal alarming inconsistencies across all languages and models. If not promptly addressed, simplified inputs can be easily exploited to craft zero-iteration model-agnostic adversarial attacks with success rates of up to 50%

arxiv情報

著者 Miriam Anschütz,Edoardo Mosca,Georg Groh
発行日 2024-04-10 09:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク