要約
大規模言語モデル (LLM) は、ヘルスケアや金融などのさまざまな領域にわたる自然言語理解において優れた能力を実証してきました。
一部のタスクでは、LLM は訓練を受けた人間と同等またはそれ以上のパフォーマンスを達成するため、LLM のパフォーマンスを評価するために人間による試験 (認定テストなど) を採用するのが合理的です。
Llama 2 や GPT などの人気のある LLM の、農業関連の質問に答える能力に関する包括的な評価を示します。
私たちの評価では、情報検索、生成機能、LLM のパフォーマンスを向上させるプロンプト戦略を組み合わせた RAG (検索拡張生成) および ER (アンサンブル洗練) 手法も採用しています。
LLM の機能を実証するために、ブラジル、インド、米国の 3 つの最大の農業生産国から農業試験とベンチマーク データセットを選択しました。
私たちの分析では、農学者認定更新の単位を取得するための試験で合格点を達成し、質問の 93% に正解し、88% の精度を達成した以前の汎用モデルを上回る GPT-4 の能力が強調されています。
私たちの実験の 1 つでは、GPT-4 は人間の被験者と比較して最高のパフォーマンスを獲得しました。
このパフォーマンスは、GPT-4 が主要な大学院教育の入学試験に合格したり、農学の証明書を更新するための単位を取得したりできる可能性があることを示唆しています。
また、ブラジル農業庁 (Embrapa) の堅牢なデータセットとインドの大学院プログラム試験を利用して、一般的な農業関連の質問に対処し、ブラジルとインドの農家向けの作物管理ガイドラインを生成するモデルの能力も調査します。
この結果は、GPT-4、ER、RAG が農業教育、評価、作物管理の実践に有意義に貢献し、農家や農業専門家に貴重な洞察を提供できることを示唆しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding across various domains, including healthcare and finance. For some tasks, LLMs achieve similar or better performance than trained human beings, therefore it is reasonable to employ human exams (e.g., certification tests) to assess the performance of LLMs. We present a comprehensive evaluation of popular LLMs, such as Llama 2 and GPT, on their ability to answer agriculture-related questions. In our evaluation, we also employ RAG (Retrieval-Augmented Generation) and ER (Ensemble Refinement) techniques, which combine information retrieval, generation capabilities, and prompting strategies to improve the LLMs’ performance. To demonstrate the capabilities of LLMs, we selected agriculture exams and benchmark datasets from three of the largest agriculture producer countries: Brazil, India, and the USA. Our analysis highlights GPT-4’s ability to achieve a passing score on exams to earn credits for renewing agronomist certifications, answering 93% of the questions correctly and outperforming earlier general-purpose models, which achieved 88% accuracy. On one of our experiments, GPT-4 obtained the highest performance when compared to human subjects. This performance suggests that GPT-4 could potentially pass on major graduate education admission tests or even earn credits for renewing agronomy certificates. We also explore the models’ capacity to address general agriculture-related questions and generate crop management guidelines for Brazilian and Indian farmers, utilizing robust datasets from the Brazilian Agency of Agriculture (Embrapa) and graduate program exams from India. The results suggest that GPT-4, ER, and RAG can contribute meaningfully to agricultural education, assessment, and crop management practice, offering valuable insights to farmers and agricultural professionals.
arxiv情報
著者 | Bruno Silva,Leonardo Nunes,Roberto Estevão,Vijay Aski,Ranveer Chandra |
発行日 | 2023-10-12 17:06:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google