ChatGPT-Crawler: Find out if ChatGPT really knows what it’s talking about



– 大規模言語モデルは、多くのタスクで印象的なパフォーマンスを発揮し、ChatGPTは多くの分野で破壊的技術になっている。
– 初期ユーザーの意見を理解することは重要で、技術が異なる分野での潜在的な強み、弱み、成功または失敗に関する貴重な洞察を提供することができる。
– この研究では、ChatGPTが生成した応答を異なる会話QAコーパスから調べ、BERTの類似性スコアを使用してこれらの応答を正しい答えと比較し、自然言語推論(NLI)ラベルを取得した。
– 評価スコアも計算され、GPT-3&GPT-4の総合パフォーマンスを比較した。
– この研究では、ChatGPTが質問に誤った回答を提供した場合を特定し、モデルが誤りを起こす可能性のある領域について洞察を提供した。


Large language models have gained considerable interest for their impressive performance on various tasks. Among these models, ChatGPT developed by OpenAI has become extremely popular among early adopters who even regard it as a disruptive technology in many fields like customer service, education, healthcare, and finance. It is essential to comprehend the opinions of these initial users as it can provide valuable insights into the potential strengths, weaknesses, and success or failure of the technology in different areas. This research examines the responses generated by ChatGPT from different Conversational QA corpora. The study employed BERT similarity scores to compare these responses with correct answers and obtain Natural Language Inference(NLI) labels. Evaluation scores were also computed and compared to determine the overall performance of GPT-3 \& GPT-4. Additionally, the study identified instances where ChatGPT provided incorrect answers to questions, providing insights into areas where the model may be prone to error.


著者 Aman Rangapur,Haoran Wang
発行日 2023-04-06 18:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG, I.7, I.m パーマリンク