A Study on Large Language Models’ Limitations in Multiple-Choice Question Answering

要約

特にオープンソース モデルの出現により、大規模言語モデル (LLM) の広範な採用が一般的になってきました。
さらに重要なのは、小型モデルは消費者向けデバイスへの統合に適しており、スタンドアロン ソリューションとして、またはさまざまな AI タスクのサブルーチンとして頻繁に使用されることです。
それらは遍在的に使用されているにもかかわらず、その特定の機能と制限についての体系的な分析はありません。
この研究では、最も広く使用されているタスクの 1 つである、多肢選択質問 (MCQ) に答えることに取り組みます。
26 の小規模なオープンソース モデルを分析したところ、モデルの 65% がタスクを理解しておらず、与えられた選択肢から回答を適切に選択できるモデルは 4 つだけであり、選択順序に依存しないモデルはそのうち 5 つだけであることがわかりました。
これらのモデルで MCQ テストが広範囲に使用されていることを考えると、これらの結果はむしろ憂慮すべきものです。
あらゆる分野の LLM を評価するために MCQ を使用する前に、注意を払い、タスクの理解をテストすることをお勧めします。

要約(オリジナル)

The widespread adoption of Large Language Models (LLMs) has become commonplace, particularly with the emergence of open-source models. More importantly, smaller models are well-suited for integration into consumer devices and are frequently employed either as standalone solutions or as subroutines in various AI tasks. Despite their ubiquitous use, there is no systematic analysis of their specific capabilities and limitations. In this study, we tackle one of the most widely used tasks – answering Multiple Choice Question (MCQ). We analyze 26 small open-source models and find that 65% of the models do not understand the task, only 4 models properly select an answer from the given choices, and only 5 of these models are choice order independent. These results are rather alarming given the extensive use of MCQ tests with these models. We recommend exercising caution and testing task understanding before using MCQ to evaluate LLMs in any field whatsoever.

arxiv情報

著者 Aisha Khatun,Daniel G. Brown
発行日 2024-01-15 20:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク