Evaluating Dialect Robustness of Language Models via Conversation Understanding

要約

英語に関して最高のパフォーマンスを報告する LLM の数が増え続けているため、英語のさまざまな方言に対して平等にパフォーマンスを発揮する能力 (つまり、方言の堅牢性) を確認する必要があります。
具体的には、「タブー」という単語当てゲームをする人間同士の英語(アメリカ英語またはインド英語)の会話を使用します。
ターゲット単語予測 (TWP) (つまり、会話内のマスクされたターゲット単語を予測する) とターゲット単語選択 (TWS) (つまり、一連の候補の中から会話内で最も可能性の高いマスクされたターゲット単語を選択する) という 2 つの評価タスクを定式化します。
言葉)。
タブーを扱う会話の既存の弁証法データセットである MD3 を拡張して、USEng および IndEng サブセットを備えた MD3 のターゲット単語がマスクされたバージョンである M-MD3 を導入します。
AITrans (IndEng から弁証法情報が削除される) と AIGen (LLM が会話を生成するように要求される) の 2 つのサブセットを追加します。
私たちの評価では、2 つのクローズドソース (GPT-4/3.5) と 2 つのオープンソース LLM (Mistral および Gemma) の事前トレーニングおよび微調整されたバージョンを使用します。
LLM は、TWP と TWS の両方において、すべての設定において、インド英語よりも米国英語の方が大幅に優れたパフォーマンスを示します。
GPT ベースのモデルが最高のパフォーマンスを発揮しますが、短い会話 (8 ターン未満) では比較的小規模なモデルの方がより公平に動作します。
AIGen と AITrans (最もパフォーマンスの悪いサブセット) に関する私たちの結果は、LLM がトレーニング データの構成に基づいて独自の方言を学習する可能性があり、方言の堅牢性が実際に困難な課題であることをそれぞれ示しています。
私たちの評価方法論は、既存の対話データセットを使用して言語モデルの属性を調べる新しい方法を示しています。

要約(オリジナル)

With an evergrowing number of LLMs reporting superlative performance for English, their ability to perform equitably for different dialects of English (i.e., dialect robustness) needs to be ascertained. Specifically, we use English language (US English or Indian English) conversations between humans who play the word-guessing game of `taboo’. We formulate two evaluative tasks: target word prediction (TWP) (i.e.predict the masked target word in a conversation) and target word selection (TWS) (i.e., select the most likely masked target word in a conversation, from among a set of candidate words). Extending MD3, an existing dialectic dataset of taboo-playing conversations, we introduce M-MD3, a target-word-masked version of MD3 with the USEng and IndEng subsets. We add two subsets: AITrans (where dialectic information is removed from IndEng) and AIGen (where LLMs are prompted to generate conversations). Our evaluation uses pre-trained and fine-tuned versions of two closed-source (GPT-4/3.5) and two open-source LLMs (Mistral and Gemma). LLMs perform significantly better for US English than Indian English for both TWP and TWS, for all settings. While GPT-based models perform the best, the comparatively smaller models work more equitably for short conversations (<8 turns). Our results on AIGen and AITrans (the best and worst-performing subset) respectively show that LLMs may learn a dialect of their own based on the composition of the training data, and that dialect robustness is indeed a challenging task. Our evaluation methodology exhibits a novel way to examine attributes of language models using pre-existing dialogue datasets.

arxiv情報

著者 Dipankar Srirag,Aditya Joshi
発行日 2024-05-09 11:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク