要約
自然言語推論 (NLI) は自然言語処理 (NLP) の基礎であり、テキストのペア間の含意関係についての洞察を提供します。
これは自然言語理解 (NLU) の重要なコンポーネントであり、話し言葉または書き言葉のやり取りから情報を抽出する能力を示します。
NLI は主に、前提と仮説として知られる 2 つのステートメント間の含意関係を決定することに関係しています。
前提が論理的に仮説を暗示する場合、そのペアは「含意」と呼ばれます。
仮説が前提と矛盾する場合、そのペアには「矛盾」のラベルが付けられます。
接続を確立するための十分な証拠がない場合、そのペアは「中立」と呼ばれます。
大規模言語モデル (LLM) はさまざまなタスクで成功を収めていますが、NLI における LLM の有効性は、低リソースのドメイン精度、モデルの過信、人間の判断の不一致を捉えることの難しさなどの問題によって依然として制限されています。
この研究は、ベンガル語などのリソースの少ない言語で LLM を評価するという未開発の領域に取り組んでいます。
包括的な評価を通じて、自然言語推論に焦点を当てたベンガル語 NLP タスクにおける著名な LLM と最先端 (SOTA) モデルのパフォーマンスを評価します。
XNLI データセットを利用して、GPT-3.5 Turbo や Gemini 1.5 Pro などの LLM を BanglaBERT、Bangla BERT Base、DistilBERT、mBERT、sahajBERT などのモデルと比較して、ゼロショットおよび少数ショットの評価を実施します。
私たちの調査結果は、LLM がショット数の少ないシナリオでは微調整された SOTA モデルと同等またはそれ以上のパフォーマンスを達成できる一方で、ベンガル語のようなリソースがそれほど多くない言語での LLM についての理解を深めるにはさらなる研究が必要であることを明らかにしました。
この研究は、多様な言語文脈にわたって LLM の機能を探求する継続的な取り組みの重要性を強調しています。
要約(オリジナル)
Natural Language Inference (NLI) is a cornerstone of Natural Language Processing (NLP), providing insights into the entailment relationships between text pairings. It is a critical component of Natural Language Understanding (NLU), demonstrating the ability to extract information from spoken or written interactions. NLI is mainly concerned with determining the entailment relationship between two statements, known as the premise and hypothesis. When the premise logically implies the hypothesis, the pair is labeled ‘entailment’. If the hypothesis contradicts the premise, the pair receives the ‘contradiction’ label. When there is insufficient evidence to establish a connection, the pair is described as ‘neutral’. Despite the success of Large Language Models (LLMs) in various tasks, their effectiveness in NLI remains constrained by issues like low-resource domain accuracy, model overconfidence, and difficulty in capturing human judgment disagreements. This study addresses the underexplored area of evaluating LLMs in low-resourced languages such as Bengali. Through a comprehensive evaluation, we assess the performance of prominent LLMs and state-of-the-art (SOTA) models in Bengali NLP tasks, focusing on natural language inference. Utilizing the XNLI dataset, we conduct zero-shot and few-shot evaluations, comparing LLMs like GPT-3.5 Turbo and Gemini 1.5 Pro with models such as BanglaBERT, Bangla BERT Base, DistilBERT, mBERT, and sahajBERT. Our findings reveal that while LLMs can achieve comparable or superior performance to fine-tuned SOTA models in few-shot scenarios, further research is necessary to enhance our understanding of LLMs in languages with modest resources like Bengali. This study underscores the importance of continued efforts in exploring LLM capabilities across diverse linguistic contexts.
arxiv情報
著者 | Fatema Tuj Johora Faria,Mukaffi Bin Moin,Asif Iftekher Fahim,Pronay Debnath,Faisal Muhammad Shah |
発行日 | 2024-05-07 17:34:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google