要約
大規模言語モデル (LLM) の機能が驚異的なペースで向上しているため、理解度を評価するための将来性のある評価セットを作成することはますます困難になっています。
この論文では、正しい世界理解は同じ意味の異なる (フリーゲの) 意味にわたって一貫しているべきであるという考えを活用した、LLM を評価するための新しいパラダイムを提案します。
したがって、理解度は正確さではなく、モデル自体によって生成される複数の感覚にわたる一貫性を評価することによって測定されます。
異なる感覚が異なる言語であるテストをインスタンス化することで、私たちのアプローチを紹介します。したがって、モデルの理解のためのリトマス試験紙として多言語の自己一貫性を使用し、同時に多言語使用という重要なトピックに取り組みます。
ChatGPT の最新バージョンの 1 つを研究対象として、3 つの異なる言語にわたる 2 つの異なるタスクの多言語の一貫性を評価します。
我々は、その多言語の一貫性がまだ欠けており、したがってその任務と世界理解が言語に依存しないことを示します。
私たちのアプローチは英語以外の言語での静的評価コーパスを必要としないため、簡単かつ安価にさまざまな言語やタスクに拡張でき、将来のベンチマークの取り組みに不可欠な部分になる可能性があります。
要約(オリジナル)
At the staggering pace with which the capabilities of large language models (LLMs) are increasing, creating future-proof evaluation sets to assess their understanding becomes more and more challenging. In this paper, we propose a novel paradigm for evaluating LLMs which leverages the idea that correct world understanding should be consistent across different (Fregean) senses of the same meaning. Accordingly, we measure understanding not in terms of correctness but by evaluating consistency across multiple senses that are generated by the model itself. We showcase our approach by instantiating a test where the different senses are different languages, hence using multilingual self-consistency as a litmus test for the model’s understanding and simultaneously addressing the important topic of multilingualism. Taking one of the latest versions of ChatGPT as our object of study, we evaluate multilingual consistency for two different tasks across three different languages. We show that its multilingual consistency is still lacking, and that its task and world understanding are thus not language-independent. As our approach does not require any static evaluation corpora in languages other than English, it can easily and cheaply be extended to different languages and tasks and could become an integral part of future benchmarking efforts.
arxiv情報
著者 | Xenia Ohmer,Elia Bruni,Dieuwke Hupkes |
発行日 | 2023-05-23 15:12:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google