Towards Red Teaming in Multimodal and Multilingual Translation

要約

自然言語処理のパフォーマンスの評価はますます複雑になっています。
特定の課題の 1 つは、評価データセットが直接的または間接的にトレーニング データと重複する可能性があり、これにより結果が歪められ、モデルのパフォーマンスが過大評価される可能性があります。
その結果、モデルのパフォーマンスと信頼性を評価する手段として人間による評価への関心が高まっています。
そのような方法の 1 つは、モデルが重大なエラーを生成するエッジ ケースを生成することを目的としたレッド チーミング アプローチです。
この方法論は生成 AI の標準的な手法になりつつありますが、条件付き AI の領域への適用はほとんど未開発のままです。
この論文は、機械翻訳 (MT) のための人ベースのレッド チーム化に関する最初の研究を紹介し、翻訳モデルの理解とパフォーマンスの向上に向けた重要な一歩を示しています。
私たちは人間ベースのレッド チーム化と自動化に関する研究の両方を詳しく調査し、学んだ教訓を報告し、翻訳モデルとレッド チーム化訓練の両方に対する推奨事項を提供します。
この先駆的な研究は、MT の分野における研究開発に新たな道を切り開きます。

要約(オリジナル)

Assessing performance in Natural Language Processing is becoming increasingly complex. One particular challenge is the potential for evaluation datasets to overlap with training data, either directly or indirectly, which can lead to skewed results and overestimation of model performance. As a consequence, human evaluation is gaining increasing interest as a means to assess the performance and reliability of models. One such method is the red teaming approach, which aims to generate edge cases where a model will produce critical errors. While this methodology is becoming standard practice for generative AI, its application to the realm of conditional AI remains largely unexplored. This paper presents the first study on human-based red teaming for Machine Translation (MT), marking a significant step towards understanding and improving the performance of translation models. We delve into both human-based red teaming and a study on automation, reporting lessons learned and providing recommendations for both translation models and red teaming drills. This pioneering work opens up new avenues for research and development in the field of MT.

arxiv情報

著者 Christophe Ropers,David Dale,Prangthip Hansanti,Gabriel Mejia Gonzalez,Ivan Evtimov,Corinne Wong,Christophe Touret,Kristina Pereyra,Seohyun Sonia Kim,Cristian Canton Ferrer,Pierre Andrews,Marta R. Costa-jussà
発行日 2024-01-29 15:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, I.2.7 パーマリンク