Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d’historiens

要約

ChatGPT や Bard などの大規模言語モデル (LLM) は情報検索に革命をもたらし、トピックに関係なく記録的な速さでカスタム応答を生成できる機能で視聴者を魅了しました。
この記事では、フランス語の歴史的事実について、信頼性が高く、包括的で、十分に適切な応答を生成するさまざまな LLM の能力を評価します。
これを達成するために、さまざまな種類、テーマ、難易度の多数の歴史関連の質問で構成されるテストベッドを構築しました。
選ばれた 10 社の LLM からの回答を評価したところ、内容と形式の両方で多数の欠点が明らかになりました。
全体的な正解率が不十分であるだけでなく、フランス語の不均一な扱いや、LLM が提供する応答の冗長性や一貫性の欠如に関連する問題にも焦点を当てています。

要約(オリジナル)

Large Language Models (LLMs) like ChatGPT or Bard have revolutionized information retrieval and captivated the audience with their ability to generate custom responses in record time, regardless of the topic. In this article, we assess the capabilities of various LLMs in producing reliable, comprehensive, and sufficiently relevant responses about historical facts in French. To achieve this, we constructed a testbed comprising numerous history-related questions of varying types, themes, and levels of difficulty. Our evaluation of responses from ten selected LLMs reveals numerous shortcomings in both substance and form. Beyond an overall insufficient accuracy rate, we highlight uneven treatment of the French language, as well as issues related to verbosity and inconsistency in the responses provided by LLMs.

arxiv情報

著者 Mathieu Chartier,Nabil Dakkoune,Guillaume Bourgeois,Stéphane Jean
発行日 2024-06-21 14:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク