Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning

要約

常識的推論は自然言語理解の重要な側面の 1 つであり、それを評価するためにいくつかのベンチマークが開発されています。
ただし、これらのベンチマークのうち、英語以外の言語で利用できるものはほんの一部です。
並行ベンチマークを開発すると、言語を超えた評価が容易になり、異なる言語をより深く理解できるようになります。
この研究では、タイ語の Winograd スキーマのコレクションを紹介します。これは、タイ語の文脈で常識的な推論能力を評価するために設計された新しいデータセットです。
スキーマは、ネイティブ スピーカー、プロの翻訳者、徹底的な検証を伴う方法論を通じて、あいまいさや常識上の課題を維持しながら、タイ語のニュアンス、慣用句、文化的参照を厳密に反映することを目指しています。
このベンチマークで人気の大規模言語モデルのパフォーマンスを評価し、その長所と限界を明らかにし、現在の最先端技術についての洞察を提供します。
結果は、GPT-4 や Claude-3-Opus などのモデルが英語では高い精度を達成する一方で、タイ語ではパフォーマンスが大幅に低下することを示しており、多言語常識推論のさらなる進歩の必要性を浮き彫りにしています。

要約(オリジナル)

Commonsense reasoning is one of the important aspect of natural language understanding, with several benchmarks developed to evaluate it. However, only a few of these benchmarks are available in languages other than English. Developing parallel benchmarks facilitates cross-lingual evaluation, enabling a better understanding of different languages. This research introduces a collection of Winograd Schemas in Thai, a novel dataset designed to evaluate commonsense reasoning capabilities in the context of the Thai language. Through a methodology involving native speakers, professional translators, and thorough validation, the schemas aim to closely reflect Thai language nuances, idioms, and cultural references while maintaining ambiguity and commonsense challenges. We evaluate the performance of popular large language models on this benchmark, revealing their strengths, limitations, and providing insights into the current state-of-the-art. Results indicate that while models like GPT-4 and Claude-3-Opus achieve high accuracy in English, their performance significantly drops in Thai, highlighting the need for further advancements in multilingual commonsense reasoning.

arxiv情報

著者 Phakphum Artkaew
発行日 2024-05-28 17:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク