要約
タイトル – 黒箱ニューラルランキングモデルに対する模倣敵対攻撃:順序と乱れ
要約 – テキストのランキングに用いられるニューラルモデルは近年大きく発展を遂げ、実際に採用されるようになってきています。しかしながら、彼らは一般的なニューラルモデルの脆弱性を受け継いでおり、これらの脆弱性は以前の研究によって検出されているものの、未だ十分に探究されていません。さらに、これらの脆弱性は、より強固に保護された検索エンジンを打ち負かすために、ブラックハットSEOによって利用される可能性があります。本研究では、黒箱ニューラルパッセージランキングモデルに対する模倣敵対攻撃を提唱しました。まず、対象となるパッセージランキングモデルを透明化し、重要なクエリ/候補を列挙したうえで、ランキング模倣モデルをトレーニングすることで、模倣モデルを作成します。このランキング模倣モデルを利用することで、ランキング結果を緻密に操作し、操作攻撃をターゲットランキングモデルに転送することができます。このため、ペアワイズ目的関数によって強化された斬新な勾配ベースの攻撃方法を提案しました。この攻撃方法は極めて少数のトークンで、事前に計画された無秩序さを引き起こす敵対的なトリガーを生成するために使用されます。また、トリガーカモフラージュを装備するために、目的関数に次の文章予測損失と言語モデルの流暢性の制約を追加しました。パッセージランキングの実験結果は、ランキング模倣攻撃モデルと敵対トリガーが、様々なSOTAニューラルランキングモデルに対して効果的であることを示しています。さらに、様々な緩和分析と人間の評価は、ポテンシャルな緩和アプローチに直面した場合のカモフラージュの効果を示しています。本研究の結果を他の学者にも知ってもらい、この新しく重要な問題に深く掘り下げてもらうために、実験データとコードを公開します。
要約(オリジナル)
Neural text ranking models have witnessed significant advancement and are increasingly being deployed in practice. Unfortunately, they also inherit adversarial vulnerabilities of general neural models, which have been detected but remain underexplored by prior studies. Moreover, the inherit adversarial vulnerabilities might be leveraged by blackhat SEO to defeat better-protected search engines. In this study, we propose an imitation adversarial attack on black-box neural passage ranking models. We first show that the target passage ranking model can be transparentized and imitated by enumerating critical queries/candidates and then train a ranking imitation model. Leveraging the ranking imitation model, we can elaborately manipulate the ranking results and transfer the manipulation attack to the target ranking model. For this purpose, we propose an innovative gradient-based attack method, empowered by the pairwise objective function, to generate adversarial triggers, which causes premeditated disorderliness with very few tokens. To equip the trigger camouflages, we add the next sentence prediction loss and the language model fluency constraint to the objective function. Experimental results on passage ranking demonstrate the effectiveness of the ranking imitation attack model and adversarial triggers against various SOTA neural ranking models. Furthermore, various mitigation analyses and human evaluation show the effectiveness of camouflages when facing potential mitigation approaches. To motivate other scholars to further investigate this novel and important problem, we make the experiment data and code publicly available.
arxiv情報
著者 | Jiawei Liu,Yangyang Kang,Di Tang,Kaisong Song,Changlong Sun,Xiaofeng Wang,Wei Lu,Xiaozhong Liu |
発行日 | 2023-04-18 08:02:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI