要約
深いテキスト理解には、特定の文書とそのテキストを超えた事前知識とのつながりが必要であり、近年多くのベンチマークで注目されています。
ただし、これらのベンチマークには 2 つの大きな制限があります。
一方で、それらのほとんどは人間による知識の注釈を必要とするため、知識の範囲が限られます。
一方、彼らは通常、テキスト内の選択肢またはスパンを回答として使用するため、回答スペースが狭くなります。
これらの制限を克服するために、このペーパーでは KoRc という新しい挑戦的なベンチマークを構築します。
以前のベンチマークと比較して、KoRC には 2 つの利点があります。それは、幅広い知識を網羅していることと、柔軟な回答形式です。
具体的には、大規模な知識ベースを利用して、アノテーターや大規模言語モデル (LLM) が知識のある質問を構築できるようにガイドします。
さらに、知識ベースでは、最終的な答えとしてスパンや選択肢ではなくラベルを使用します。
KoRC で最先端のモデルをテストしたところ、最も強力なベースラインでも、分布内および分布外のテスト セットでそれぞれ 68.3% と 30.0% の F1 測定値しか達成できないことが実験結果からわかりました。
これらの結果は、深いテキスト理解が依然として未解決の課題であることを示しています。
ベンチマーク データセット、リーダーボード、ベースライン メソッドは https://github.com/THU-KEG/KoRC でリリースされています。
要約(オリジナル)
Deep text understanding, which requires the connections between a given document and prior knowledge beyond its text, has been highlighted by many benchmarks in recent years. However, these benchmarks have encountered two major limitations. On the one hand, most of them require human annotation of knowledge, which leads to limited knowledge coverage. On the other hand, they usually use choices or spans in the texts as the answers, which results in narrow answer space. To overcome these limitations, we build a new challenging benchmark named KoRc in this paper. Compared with previous benchmarks, KoRC has two advantages, i.e., broad knowledge coverage and flexible answer format. Specifically, we utilize massive knowledge bases to guide annotators or large language models (LLMs) to construct knowledgable questions. Moreover, we use labels in knowledge bases rather than spans or choices as the final answers. We test state-of-the-art models on KoRC and the experimental results show that the strongest baseline only achieves 68.3% and 30.0% F1 measure in the in-distribution and out-of-distribution test set, respectively. These results indicate that deep text understanding is still an unsolved challenge. The benchmark dataset, leaderboard, and baseline methods are released in https://github.com/THU-KEG/KoRC.
arxiv情報
| 著者 | Zijun Yao,Yantao Liu,Xin Lv,Shulin Cao,Jifan Yu,Lei Hou,Juanzi Li |
| 発行日 | 2023-07-06 16:35:25+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google