要約
最近、大規模言語モデル (LLM) は、文書の分類、要約、質問応答などのさまざまな文書レベルのタスクで優れたパフォーマンスを示しています。
しかし、長い文書の自己矛盾に対処する能力を理解するための研究は非常に限られています。
この研究では、複数のドメイン、さまざまな文書の長さ、自己矛盾のタイプ、および範囲にわたる長い文書の自己矛盾を研究するための、人間が注釈を付けた最初のデータセットである ContraDoc を紹介します。
次に、このデータセットで 4 つの最先端のオープンソースおよび市販の LLM (GPT3.5、GPT4、PaLM2、および LLaMAv2) の現在の機能を分析します。
GPT4 はこのタスクでは最高のパフォーマンスを発揮し、人間を上回りますが、依然として信頼性が低く、より詳細なニュアンスとコンテキストが必要な自己矛盾に苦しんでいることがわかりました。
データセットと実験に関連するすべてのコードを公開します。
要約(オリジナル)
In recent times, large language models (LLMs) have shown impressive performance on various document-level tasks such as document classification, summarization, and question-answering. However, research on understanding their capabilities on the task of self-contradictions in long documents has been very limited. In this work, we introduce ContraDoc, the first human-annotated dataset to study self-contradictions in long documents across multiple domains, varying document lengths, self-contradictions types, and scope. We then analyze the current capabilities of four state-of-the-art open-source and commercially available LLMs: GPT3.5, GPT4, PaLM2, and LLaMAv2 on this dataset. While GPT4 performs the best and can outperform humans on this task, we find that it is still unreliable and struggles with self-contradictions that require more nuance and context. We release the dataset and all the code associated with the experiments.
arxiv情報
著者 | Jierui Li,Vipul Raheja,Dhruv Kumar |
発行日 | 2023-11-15 18:23:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google