要約
私たちは、新しいインドネシア語の常識推論データセットである、公的に利用可能な COPAL-ID を紹介します。
以前のインドネシア COPA データセット (XCOPA-ID) とは異なり、COPAL-ID にはインドネシアの地域的および文化的ニュアンスが組み込まれているため、インドネシア文化圏における日常の因果推論をより自然に描写できます。
ネイティブによって専門的に一から書かれた COPAL-ID は、翻訳された XCOPA-ID とは異なり、より流暢で、ぎこちない表現がありません。
さらに、COPAL-ID を標準インドネシア語と、日常会話でよく使用されるジャカルタン インドネシア語の両方で提示します。
COPAL-ID は、既存のオープンソースでクローズドな最先端の多言語言語モデルにとっては大きな課題ですが、人間にとっては簡単です。
私たちの調査結果は、現在最高のオープンソースの多言語モデルでさえ良好なパフォーマンスを発揮するのに苦労しており、COPAL-ID では 65.47% の精度を達成しており、文化的に欠けている XCOPA-ID (79.40%) よりも大幅に低いことがわかります。
GPT-4 の優れたスコアにもかかわらず、XCOPA-ID スコアと比較すると同様のパフォーマンス低下が見られ、依然として人間のパフォーマンスには達していません。
これは、これらの言語モデルがインドネシア語の現地のニュアンスを理解するのにまだかなり遅れていることを示しています。
要約(オリジナル)
We present publicly available COPAL-ID, a novel Indonesian language common sense reasoning dataset. Unlike the previous Indonesian COPA dataset (XCOPA-ID), COPAL-ID incorporates Indonesian local and cultural nuances, and therefore, provides a more natural portrayal of day-to-day causal reasoning within the Indonesian cultural sphere. Professionally written by natives from scratch, COPAL-ID is more fluent and free from awkward phrases, unlike the translated XCOPA-ID. In addition, we present COPAL-ID in both standard Indonesian and in Jakartan Indonesian–a dialect commonly used in daily conversation. COPAL-ID poses a greater challenge for existing open-sourced and closed state-of-the-art multilingual language models, yet is trivially easy for humans. Our findings suggest that even the current best open-source, multilingual model struggles to perform well, achieving 65.47% accuracy on COPAL-ID, significantly lower than on the culturally-devoid XCOPA-ID (79.40%). Despite GPT-4’s impressive score, it suffers the same performance degradation compared to its XCOPA-ID score, and it still falls short of human performance. This shows that these language models are still way behind in comprehending the local nuances of Indonesian.
arxiv情報
著者 | Haryo Akbarianto Wibowo,Erland Hilman Fuadi,Made Nindyatama Nityasya,Radityo Eko Prasojo,Alham Fikri Aji |
発行日 | 2023-11-02 06:14:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google