要約
NLP の動作テストでは、入出力動作の分析を通じてシステムの言語能力を調べることで、システムをきめ細かく評価できます。
残念ながら、機械翻訳 (MT) の動作テストに関する既存の取り組みは、現在、限られた範囲の機能と言語をカバーする、主に手作りのテストに限定されています。
この制限に対処するために、ラージ言語モデル (LLM) を使用して、さまざまな状況で MT モデルの動作をテストするために調整されたさまざまなソース文のセットを生成することを提案します。
次に、やはり LLM を使用して生成された候補セットを照合することで、MT モデルが期待どおりの動作を示すかどうかを検証できます。
私たちのアプローチは、人間の労力を最小限に抑えながら、MT システムの動作テストを実用化することを目的としています。
私たちの実験では、提案した評価フレームワークを適用して複数の利用可能な MT システムを評価しました。これにより、一般に合格率は従来の精度ベースの指標から観察できる傾向に従う一方で、私たちの方法ではいくつかの重要な違いと潜在的なバグを発見できたことが明らかになりました。
精度だけに頼っていると気づかれない。
要約(オリジナル)
Behavioral testing in NLP allows fine-grained evaluation of systems by examining their linguistic capabilities through the analysis of input-output behavior. Unfortunately, existing work on behavioral testing in Machine Translation (MT) is currently restricted to largely handcrafted tests covering a limited range of capabilities and languages. To address this limitation, we propose to use Large Language Models (LLMs) to generate a diverse set of source sentences tailored to test the behavior of MT models in a range of situations. We can then verify whether the MT model exhibits the expected behavior through matching candidate sets that are also generated using LLMs. Our approach aims to make behavioral testing of MT systems practical while requiring only minimal human effort. In our experiments, we apply our proposed evaluation framework to assess multiple available MT systems, revealing that while in general pass-rates follow the trends observable from traditional accuracy-based metrics, our method was able to uncover several important differences and potential bugs that go unnoticed when relying only on accuracy.
arxiv情報
| 著者 | Javier Ferrando,Matthias Sperber,Hendra Setiawan,Dominic Telaar,Saša Hasan | 
| 発行日 | 2023-09-07 00:23:34+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
