要約
手動で注釈を付けた入力スパンの形式の理論的根拠は、通常、NLP で説明可能性の手法を評価する際のグラウンド トゥルースとして機能します。
ただし、時間がかかり、注釈プロセスによってバイアスがかかることがよくあります。
この論文では、ウェブカメラベースの視線追跡記録の形での人間の視線が、重要度スコアを評価する際の有効な代替手段となるかどうかを議論します。
私たちは、総読み取り時間、視線エントロピー、人間の理論的根拠の注釈に関するデコード精度など、視線データによって提供される追加情報を評価します。
情報を求める QA のための多言語データセットである WebQAmGaze を、4 つの異なる多言語 Transformer ベースの言語モデル (mBERT、distil-mBERT、XLMR、および XLMR-L) と 3 つの言語 (英語、
スペイン語、ドイツ語)。
私たちのパイプラインは他のタスクや言語に簡単に適用できます。
私たちの調査結果は、視線データが貴重な言語学的洞察を提供し、それを活用してタスクの難易度を推測し、さらに人間の理論的根拠に匹敵する説明可能性の方法のランキングを示すことを示唆しています。
要約(オリジナル)
Rationales in the form of manually annotated input spans usually serve as ground truth when evaluating explainability methods in NLP. They are, however, time-consuming and often biased by the annotation process. In this paper, we debate whether human gaze, in the form of webcam-based eye-tracking recordings, poses a valid alternative when evaluating importance scores. We evaluate the additional information provided by gaze data, such as total reading times, gaze entropy, and decoding accuracy with respect to human rationale annotations. We compare WebQAmGaze, a multilingual dataset for information-seeking QA, with attention and explainability-based importance scores for 4 different multilingual Transformer-based language models (mBERT, distil-mBERT, XLMR, and XLMR-L) and 3 languages (English, Spanish, and German). Our pipeline can easily be applied to other tasks and languages. Our findings suggest that gaze data offers valuable linguistic insights that could be leveraged to infer task difficulty and further show a comparable ranking of explainability methods to that of human rationales.
arxiv情報
著者 | Stephanie Brandl,Oliver Eberle,Tiago Ribeiro,Anders Søgaard,Nora Hollenstein |
発行日 | 2024-02-29 13:09:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google