要約
言語の複雑さにより、特定の例がモデルサイズやアーキテクチャに関係なく一貫して低いスコアを生成する直感に基づいて、読解力の評価方法を紹介します。
この複雑さを特徴付けるためのセマンティックフレーム注釈を活用し、モデルの困難を説明する可能性のある7つの複雑さの要因を研究します。
最初に、これらの複雑さの2つが実際にモデルの障害の良い予測因子であることを示す慎重に注釈されたフランスの読解ベンチマークにこの方法論を展開しますが、他の方法はそうではありません。
セマンティック注釈のプロキシとしてChat-GPTを使用することにより、よく研究された英語のベンチマークに方法論を展開します。
私たちの研究では、読解タスクの細かい著しい言語的に動機付けられた自動評価が可能であるだけでなく、入力例の特定の言語特性を処理するモデルの能力を理解するのに役立つことが明らかになりました。
また、現在の最先端のモデルは、それらを適切に処理するには単にモデルサイズを増やす以上のものを必要とすることを示唆する特性に対していくつかのもので失敗することを示しています。
要約(オリジナル)
We introduce an evaluation methodology for reading comprehension tasks based on the intuition that certain examples, by the virtue of their linguistic complexity, consistently yield lower scores regardless of model size or architecture. We capitalize on semantic frame annotation for characterizing this complexity, and study seven complexity factors that may account for model’s difficulty. We first deploy this methodology on a carefully annotated French reading comprehension benchmark showing that two of those complexity factors are indeed good predictors of models’ failure, while others are less so. We further deploy our methodology on a well studied English benchmark by using Chat-GPT as a proxy for semantic annotation. Our study reveals that fine-grained linguisticallymotivated automatic evaluation of a reading comprehension task is not only possible, but helps understand models’ abilities to handle specific linguistic characteristics of input examples. It also shows that current state-of-the-art models fail with some for those characteristics which suggests that adequately handling them requires more than merely increasing model size.
arxiv情報
著者 | Elie Antoine,Frédéric Béchet,Géraldine Damnati,Philippe Langlais |
発行日 | 2025-01-29 11:05:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google