The Battle of LLMs: A Comparative Study in Conversational QA Tasks

要約

大規模な言語モデルは、さまざまなタスクで優れたパフォーマンスを発揮するため、大きな関心を集めています。
この分野では、OpenAI によって開発された ChatGPT と GPT-4、および Google によって開発された Gemini が、アーリーアダプターの間で特に人気のあるものとして浮上しています。
さらに、Mistral AI の Mixtral と Anthropic の Claude が新たにリリースされ、高度な言語モデルの状況がさらに拡大しました。
これらのモデルは、顧客サービス、教育、医療、金融にまたがるアプリケーションを備えた破壊的テクノロジーとみなされています。
最近では、Mistral が登場し、クリエイティブなコンテンツを生成する独自の機能でユーザーを魅了しています。
これらのユーザーの視点を理解することは、さまざまなドメインにおけるこれらのテクノロジーの潜在的な長所、短所、および全体的な成功または失敗についての貴重な洞察を提供できるため、非常に重要です。
この調査では、さまざまな会話 QA コーパスにわたって、ChatGPT、GPT-4、Gemini、Mixtral、および Claude によって生成された応答を詳しく調査しています。
評価スコアは細心の注意を払って計算され、その後、これらのモデルの全体的なパフォーマンスを確認するために比較されました。
私たちの調査では、これらのモデルが質問に対して不正確な回答を提供した例を特定し、エラーが発生しやすい潜在的な領域についての洞察を提供しました。
基本的に、この研究はこれらの最先端の言語モデルの包括的な比較と評価を提供し、その機能に光を当てるとともに、改善の余地がある領域も明らかにします。

要約(オリジナル)

Large language models have gained considerable interest for their impressive performance on various tasks. Within this domain, ChatGPT and GPT-4, developed by OpenAI, and the Gemini, developed by Google, have emerged as particularly popular among early adopters. Additionally, Mixtral by Mistral AI and Claude by Anthropic are newly released, further expanding the landscape of advanced language models. These models are viewed as disruptive technologies with applications spanning customer service, education, healthcare, and finance. More recently, Mistral has entered the scene, captivating users with its unique ability to generate creative content. Understanding the perspectives of these users is crucial, as they can offer valuable insights into the potential strengths, weaknesses, and overall success or failure of these technologies in various domains. This research delves into the responses generated by ChatGPT, GPT-4, Gemini, Mixtral and Claude across different Conversational QA corpora. Evaluation scores were meticulously computed and subsequently compared to ascertain the overall performance of these models. Our study pinpointed instances where these models provided inaccurate answers to questions, offering insights into potential areas where they might be susceptible to errors. In essence, this research provides a comprehensive comparison and evaluation of these state of-the-art language models, shedding light on their capabilities while also highlighting potential areas for improvement

arxiv情報

著者 Aryan Rangapur,Aman Rangapur
発行日 2024-05-28 16:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.7, I.m パーマリンク